安居客小区页面:https://shanghai.anjuke.com/community/
上海地区一共有31093个小区,安居客每一页有30个小区的概览信息,可以收集详细页面链接。
难题:
1、通过翻页收集,发现只能够翻50页,1500条信息;
2、发现地址有规律:https://shanghai.anjuke.com/community/p页数/ ,但是最大只支持100页,也就是说 ……/p1/ 和……/P100/的结果不相同,后续的……/p101/开始,显示内容与P1祥同,即只能搜集到前3000条信息
3、由于网站元素调整等原因,集搜客的数据DIY无法顺利收集数据
因此,无法高效的通过爬虫进行数据采集工作。
目前唯一的思路是 通过地址细分,根据地区将3万多个小区分解成几十个类来进行收集,以来绕开1500/3000条的信息限制,但是无法找到合适的方法来高效实现这一目的。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 7 个关于本帖的回复 最后回复于 2017-10-16 09:23