Banner
首页 > 新闻动态 > 内容
如何抓取房产信息网上的临淄新楼盘信息?
- 2019-07-15-

  目标:爬取房产信息网上的临淄新楼盘信息

  搜集待爬取的目标网址,先打开房产信息网进入新楼盘页面进行研究,但是这个页面主要是信息聚合呈现,临淄新楼盘信息并不全,接着找到列表页,这回是想要的了。

  发现该列表页的网址加上分页为如下形式,分页共有28页,分页字段主要是在/b91/这部分,从b91到b928,这样如果把这28页爬完就能初步得到临淄新楼盘条目,接着再对每个新楼盘的主页进行爬取提取信息,就能得到想要的内容。

  具体某个楼盘主页为:开始写代码,先导入依赖的库,写了一个函数用于提取某个页面中包含的不重复链接,返回一个列表,没想到在去重这部分花了很多时间。开始对于每个列表页面进行下载和解析,解析页面内的<a>标签,将链接地址提取出来,这里使用的正则表达式如下:

  将提取到的网址列表先存入一个set(),保障在一个页面上抓到的网址没有重复,抓取完后再将该集合转成list存入一个整体的网址列表中。

  然后对网址进行去除重复,这里要去掉的重复网址是指页面上其他的非楼盘链接,由于每个临淄新楼盘列表页都会有这些重复的信息,一共抓了28页说明会有28个重复,因此要想办法去除这一部分的链接。

  想来想去,想出先找出重复的网址,保存进一个列表中,然后再将网址列表跟重复网址列表进行比较,若有相同项则从网址列表中删除重复网址项,这样就能得出想要的每个新楼盘主页。

  总觉得这样做是个笨办法效率不高,因为有重复操作,不知道有没有更方便的算法,目前想不出来。

  经过一番提取去重后,得到一个临淄新楼盘详情页链接的文本文件,用于后续信息抓取。


咨询热线