淄博房产信息网如何抓取信息?
先研究了一下楼盘详情页结构,想爬取的结构信息是如下这样的,每个信息在一条li的下面有两个<div>,一个是信息名称,一个是信息值,90%的信息都是这样的结构,除了部分标题,主图等:
开始的想法是针对信息条目,一条条分析进行抓取,根据每个想要的信息构造对应的抓取函数:
但是这样做,首先是发现如果有的信息名称是三个字的话,搜房网会在中间插入i标签,像下面的例子,导致抓取函数无法抓取到正确的<div>。
于是在这里研究了好久,先是换搜索正则表达式,怎么都搜不到,后来突发奇想,能不能在抓取之前把i标签去掉,于是查文档,写了代码
这样先对下载到的文档进行处理再抓取淄博房产信息网楼盘信息应该是可以的,但是很奇怪,去掉i标签后文字还是无法查找到,这回真的卡壳了。
然后经过一番冥思苦想,忽然想到,干嘛要一个个信息来针对性抓取啊,既然它结构大部分都是相同的,干脆全抓取出来存入一个字典里好了。于是开始写代码:
抓取成功!发现这样做不光效率高,而且既方便又能容错,获得的淄博房产信息网也全,唉怎么不早点想到呢,折腾好久。
另外在页面结构中发现有一个<script>标签内有楼盘的主图,因此也想把这部分抓取下来,这段的原始结构是这样的:
先初步写了个节点抓取语句,成功找到该<script>标签
但是抓取之后怎么转成字典的键值对呢,搜索加研究,使用split()函数可以实现。
上一条: 淄博房产网应发布优良房源
下一条: 淄博房产信息网的创建是潮流趋势的要求
相关行业知识
- 临淄房屋过户手续的相关问题有哪些?
- 临淄二手房交易合同文本出炉,快来看看!
- 在进行临淄二手房交易的时候,要注意房产证的重要性
- 淄博二手房交易的时候要注意以下几类房产
- 要怎样进行临淄二手房的过户?
- 淄博房产信息网教你怎样进行淄博房产过户?
- 临淄房产中介教你如何检查房源的好坏?
- 进行临淄房产交易的时候要注意哪些问题
- 临淄房屋过户注意事项
- 临淄房产信息为业主提供交易帮助
- 淄博房产网应发布优良房源
- 淄博房产网都有什么功能
- 临淄二手房的过户交易方法和步骤
- 临淄房产交易具备什么特征
- 临淄二手房贷款停止会对市场造成什么影响
- 淄博房产信息网管理系统可行性分析
- 临淄房产网发布信息注意事项
- 买淄博二手房要注意什么
- 淄博房产网的推广步骤(下)
- 按揭贷款买二手房流程