本人使用gooseeker创建了一系列主题,目的是翻墙后爬取Chorme网上应用店的插件的信息。其中出问题的主题的原本目标如下:
我一共建了3个主题(每个主题的整理箱都已经设为偏好class),我的目标是mt_3要成功采集。每个的内容如下:
mt_1:list_1,记号线索。成功。样本网页如下:
网页地址A(从“拓展程序”到“可离线使用”):https://chrome.google.com/webstore/category/extensions?hl=zh-CN&_feature=offline
mt_2:list_1,list_2。成功。样本网页如下:
网页地址B(从“应用”到“google产品“):https://chrome.google.com/webstore/category/apps?hl=zh-CN&_feature=google
mt_3:list_1,list_2,记号线索。失败,超时问题已经排除,应该是规则不适应。样本网页如下:
网页地址A(从“拓展程序”到"可离线使用"):https://chrome.google.com/webstore/category/extensions?hl=zh-CN&_feature=offline
我怀疑是:list_2是用来收集小图标插件信息的,但是因为谷歌将小图标排放在所有大图标之后显示,所以小图标往往在点击“查看更多”之后才会出现。也就是整理箱list_2要在至少第一个记号线索被发现之后才能开始采集。
我在这里陷入僵局了,希望有网友能指点迷津,有点急,非常感谢~
|
共 8 个关于本帖的回复 最后回复于 2017-5-6 13:30