本人使用gooseeker创建了一系列主题,目的是翻墙后爬取Chorme网上应用店的插件的信息。其中出问题的主题的原本目标如下:


我一共建了3个主题(每个主题的整理箱都已经设为偏好class),我的目标是mt_3要成功采集。每个的内容如下:
mt_1:list_1,记号线索。成功。样本网页如下:
网页地址A(从“拓展程序”到“可离线使用”):https://chrome.google.com/webstore/category/extensions?hl=zh-CN&_feature=offline
mt_2:list_1,list_2。成功。样本网页如下:
网页地址B(从“应用”到“google产品“):https://chrome.google.com/webstore/category/apps?hl=zh-CN&_feature=google
mt_3:list_1,list_2,记号线索。失败,超时问题已经排除,应该是规则不适应。样本网页如下:
网页地址A(从“拓展程序”到"可离线使用"):https://chrome.google.com/webstore/category/extensions?hl=zh-CN&_feature=offline
我怀疑是:list_2是用来收集小图标插件信息的,但是因为谷歌将小图标排放在所有大图标之后显示,所以小图标往往在点击“查看更多”之后才会出现。也就是整理箱list_2要在至少第一个记号线索被发现之后才能开始采集。
我在这里陷入僵局了,希望有网友能指点迷津,有点急,非常感谢~

Image 5.png (41.57 KB, 下载次数: 638)

Image 5.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-5-6 13:30

沙发
HJLing 版主 发表于 2017-5-2 16:47:18 | 只看该作者
访问不了网站所以加载不了你的规则无法直接检查

mt_3有个记号线索是吧
在执行记号线索之前有采集到结果吗?
你根据报错的线索编号去加载看看提示什么
教程参考《抓取失败(超时),抓取规则不合适或者超时时间设置太短
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-5-2 16:54:30 | 只看该作者
mt_1和mt_3好像是针对的同一页面?
举报 使用道具
地板
西瓜 初级会员 发表于 2017-5-2 23:35:48 | 只看该作者
shenzhenwan10 发表于 2017-5-2 16:54
mt_1和mt_3好像是针对的同一页面?

是的呢,是为了确定采集小图标对能否成功采集的影响。
举报 使用道具
5#
shengchengx 金牌会员 发表于 2017-5-3 11:35:57 | 只看该作者
哪里一个你说的小图标?我没找到他呢

QQ截图20170503113554.png (32.82 KB, 下载次数: 607)

QQ截图20170503113554.png
举报 使用道具
6#
西瓜 初级会员 发表于 2017-5-3 15:01:32 | 只看该作者
shengchengx 发表于 2017-5-3 11:35
哪里一个你说的小图标?我没找到他呢

谢谢你还翻墙帮我看!小图标一般在很后面的,所以不容易翻出来。举个例子,选应用中的既可以离线又属于谷歌产品的。下面的图里,既有大图标,又有小图标,我定位后两个的class是不一样的。

举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-5-3 16:21:10 | 只看该作者
西瓜 发表于 2017-5-3 15:01
谢谢你还翻墙帮我看!小图标一般在很后面的,所以不容易翻出来。举个例子,选应用中的既可以离线又属于谷 ...

主要是我还没搞清楚你需要采集什么内容,我看到你规则也没有出错的,采集的时候出错可能是因为mt_3:list_2整理箱的小图标都设置了关键内容,但是你这边大概抓不到小图标这种网站,所以就直接出错了吧

QQ截图20170503162112.png (49.46 KB, 下载次数: 627)

QQ截图20170503162112.png
举报 使用道具
8#
西瓜 初级会员 发表于 2017-5-6 13:29:48 | 只看该作者
shengchengx 发表于 2017-5-3 16:21
主要是我还没搞清楚你需要采集什么内容,我看到你规则也没有出错的,采集的时候出错可能是因为mt_3:list_ ...

你的建议是对的,我把关键内容取消之后,啥都正常了!感谢!
举报 使用道具
9#
西瓜 初级会员 发表于 2017-5-6 13:30:45 | 只看该作者
HJLing 发表于 2017-5-2 16:47
访问不了网站所以加载不了你的规则无法直接检查

mt_3有个记号线索是吧

我把list_2的关键内容勾选取消之后,就正常了,还是我的细节设置不对,谢谢了~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-20 21:11