Banner
首页 > 行业知识 > 内容
淄博房产信息网如何抓取信息?
- 2019-07-15-

 淄博房产信息网如何抓取信息?

 先研究了一下楼盘详情页结构,想爬取的结构信息是如下这样的,每个信息在一条li的下面有两个<div>,一个是信息名称,一个是信息值,90%的信息都是这样的结构,除了部分标题,主图等:

 开始的想法是针对信息条目,一条条分析进行抓取,根据每个想要的信息构造对应的抓取函数:

 但是这样做,首先是发现如果有的信息名称是三个字的话,搜房网会在中间插入i标签,像下面的例子,导致抓取函数无法抓取到正确的<div>。

 于是在这里研究了好久,先是换搜索正则表达式,怎么都搜不到,后来突发奇想,能不能在抓取之前把i标签去掉,于是查文档,写了代码

 这样先对下载到的文档进行处理再抓取淄博房产信息网楼盘信息应该是可以的,但是很奇怪,去掉i标签后文字还是无法查找到,这回真的卡壳了。

 然后经过一番冥思苦想,忽然想到,干嘛要一个个信息来针对性抓取啊,既然它结构大部分都是相同的,干脆全抓取出来存入一个字典里好了。于是开始写代码:

 抓取成功!发现这样做不光效率高,而且既方便又能容错,获得的淄博房产信息网也全,唉怎么不早点想到呢,折腾好久。

 另外在页面结构中发现有一个<script>标签内有楼盘的主图,因此也想把这部分抓取下来,这段的原始结构是这样的:

 先初步写了个节点抓取语句,成功找到该<script>标签

 但是抓取之后怎么转成字典的键值对呢,搜索加研究,使用split()函数可以实现。


咨询热线