目标:爬取房产信息网上的临淄新楼盘信息
搜集待爬取的目标网址,先打开房产信息网进入新楼盘页面进行研究,但是这个页面主要是信息聚合呈现,临淄新楼盘信息并不全,接着找到列表页,这回是想要的了。
发现该列表页的网址加上分页为如下形式,分页共有28页,分页字段主要是在/b91/这部分,从b91到b928,这样如果把这28页爬完就能初步得到临淄新楼盘条目,接着再对每个新楼盘的主页进行爬取提取信息,就能得到想要的内容。
具体某个楼盘主页为:开始写代码,先导入依赖的库,写了一个函数用于提取某个页面中包含的不重复链接,返回一个列表,没想到在去重这部分花了很多时间。开始对于每个列表页面进行下载和解析,解析页面内的<a>标签,将链接地址提取出来,这里使用的正则表达式如下:
将提取到的网址列表先存入一个set(),保障在一个页面上抓到的网址没有重复,抓取完后再将该集合转成list存入一个整体的网址列表中。
然后对网址进行去除重复,这里要去掉的重复网址是指页面上其他的非楼盘链接,由于每个临淄新楼盘列表页都会有这些重复的信息,一共抓了28页说明会有28个重复,因此要想办法去除这一部分的链接。
想来想去,想出先找出重复的网址,保存进一个列表中,然后再将网址列表跟重复网址列表进行比较,若有相同项则从网址列表中删除重复网址项,这样就能得出想要的每个新楼盘主页。
总觉得这样做是个笨办法效率不高,因为有重复操作,不知道有没有更方便的算法,目前想不出来。
经过一番提取去重后,得到一个临淄新楼盘详情页链接的文本文件,用于后续信息抓取。
上一条: 淄博房产网房屋资源发布技巧
下一条: 临淄二手房如何进行质量检测
相关新闻
- 临淄房屋过户手续的流程和注意事项有哪些?
- 临淄房屋过户的时候需要哪些手续?
- 淄博二手房过户需要的资料和注意事项
- 临淄房产交易需要注意哪些问题?
- 购买淄博二手房需要注意楼间距的问题
- 为什么春节期间临淄房产交易数量比较多?
- 临淄房产网为你介绍房产网的作用?
- 怎样建立一个跟淄博房产信息网类似的房产中介网站呢?
- 临淄房产信息发布一批较新的房源信息
- 淄博房产信息网得到了购房网友的关注与认可
- 淄博房产网房屋资源发布技巧
- 淄博二手房怎么装修好?
- 淄博房产信息网中介软件分类及代际区别
- 为什么要创建淄博房产交易信息网
- 临淄房产中介活动的特点
- 临淄二手房基础知识介绍
- 临淄房产中介机构简说房地产知识
- 临淄二手房将停贷是大势所趋
- 淄博房产信息网是如何应运而生的
- 淄博房产网房源发布方法