集搜客GooSeeker网络爬虫

标题: 如何收集安居客上海的所有小区信息页面? [打印本页]

作者: carloszone    时间: 2017-10-13 16:01
标题: 如何收集安居客上海的所有小区信息页面?
安居客小区页面:https://shanghai.anjuke.com/community/
上海地区一共有31093个小区,安居客每一页有30个小区的概览信息,可以收集详细页面链接。

难题:
1、通过翻页收集,发现只能够翻50页,1500条信息;
2、发现地址有规律:https://shanghai.anjuke.com/community/p页数/ ,但是最大只支持100页,也就是说 ……/p1/ 和……/P100/的结果不相同,后续的……/p101/开始,显示内容与P1祥同,即只能搜集到前3000条信息
3、由于网站元素调整等原因,集搜客的数据DIY无法顺利收集数据

因此,无法高效的通过爬虫进行数据采集工作。


目前唯一的思路是 通过地址细分,根据地区将3万多个小区分解成几十个类来进行收集,以来绕开1500/3000条的信息限制,但是无法找到合适的方法来高效实现这一目的。
[attach]8011[/attach]

作者: ali369    时间: 2017-10-13 16:12
本帖最后由 ali369 于 2017-10-13 17:15 编辑

安居客网站翻页有限制,最多只能翻50页,只能通过你说的那种方式分成很多小类去抓取。
似乎所有单个小区的页面信息都小于1500条信息,可以用连续动作抓取所有小区的网址链接,然后再批量添加网址线索的方式抓取。

作者: carloszone    时间: 2017-10-13 16:22
ali369 发表于 2017-10-13 16:12
安居客网站翻页有限制,最多只能翻50页,只能通过你说的那种方式分成很多小类去抓取。
似乎所有单个的小区 ...

分小类有什么便捷的方法吗?

难道需要每个小类做一个爬虫规则吗? 然后汇总几十个爬虫的网址结果再进行后续抓取?

作者: yangwenge    时间: 2017-10-13 16:41
carloszone 发表于 2017-10-13 16:22
分小类有什么便捷的方法吗?

难道需要每个小类做一个爬虫规则吗? 然后汇总几十个爬虫的网址结果再进行 ...

不需要每个小类都做一个规则,可以用连续动作分别点击各个小类实现抓取

作者: bowieD    时间: 2017-10-13 17:17
carloszone 发表于 2017-10-13 16:22
分小类有什么便捷的方法吗?

难道需要每个小类做一个爬虫规则吗? 然后汇总几十个爬虫的网址结果再进行 ...

用连续动作就可以抓取所有小区的网址线索《连续动作介绍》,不需要对每个小区都做一个规则抓取。

作者: bowieD    时间: 2017-10-13 17:43
本帖最后由 bowieD 于 2017-10-13 17:45 编辑

也可以这么做:
1,定义第一级规则,抓取所有大区域的链接,只有十几个,直接复制下来就可以了。
2,定义第二级规则,抓取大区域下的各个小区域链接,直接映射小区域的链接,做样例复制就能把一个大区域中所有小区的链接全部抓下来,因为每个大区域都有独立的网址且结构相同,拿一个页面做样本规则,然后再直接导入其他大区域的链接就可以抓取所有的小区域链接。
3,定义第三级规则去抓取列表信息,把第二级规则抓下来的所有小区域链接全部导入到第三级规则就能实现全部小区的信息抓取。
这种方法更简单,更容易制作规则。

作者: carloszone    时间: 2017-10-15 17:45
bowieD 发表于 2017-10-13 17:43
也可以这么做:
1,定义第一级规则,抓取所有大区域的链接,只有十几个,直接复制下来就可以了。
2,定义第 ...

谢谢 我用的这个方法,不过做了4级:第一级:爬行政区
第二级:爬细分区块
第三级:爬网址
第四季:爬详细信息


因为我还是不太会用连续动作,特别是需要点击两次的这种
第一次点击:选择行政区,出现了细分区块
第二次点击:选择细分区块,出现了小区列表


作者: umsung    时间: 2017-10-16 09:23
carloszone 发表于 2017-10-15 17:45
谢谢 我用的这个方法,不过做了4级:第一级:爬行政区
第二级:爬细分区块
第三级:爬网址

就用你的第一种方法就可以了,后期我们会在数据DIY加上这条规则。





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2