主题名:抓取9

遇到困难: 抓取到后面就全白了,无法采集了。最后 抓取的数据与网站数据不符合。希望大家帮我看看,谢谢啦!
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2016-8-26 16:07

沙发
877994752 中级会员 发表于 2016-8-24 11:39:57 | 只看该作者
图片

网站数据.png (242.72 KB, 下载次数: 896)

网站数据.png

最后抓取数据.png (41.15 KB, 下载次数: 858)

最后抓取数据.png
举报 使用道具
板凳
877994752 中级会员 发表于 2016-8-24 11:52:01 | 只看该作者
举报 使用道具
地板
HJLing 版主 发表于 2016-8-24 12:02:07 | 只看该作者
规则没有问题 采不全可能是网站自身有限制不能查看全部产品
举报 使用道具
5#
Fuller 管理员 发表于 2016-8-24 14:51:15 | 只看该作者
我的诊断结果是:可能是网速问题。国外网站速度太慢,我再测试一下你的主题

你可以自己再测试一下,如果多次抓取后看到的结果数量不一样,那么基本上可以排除是网站限制,基本上可以归因于网速。

目前,GooSeeker网络爬虫是突破反爬能力最强的软件,我认为这不是网站限制
举报 使用道具
6#
877994752 中级会员 发表于 2016-8-24 16:30:40 | 只看该作者
Fuller 发表于 2016-8-24 14:51
我的诊断结果是:可能是网速问题。国外网站速度太慢,我再测试一下你的主题

你可以自己再测试一下,如果多 ...

我刚刚测试了几遍,每次结果都不一样。
举报 使用道具
7#
877994752 中级会员 发表于 2016-8-24 16:33:58 | 只看该作者
Fuller 发表于 2016-8-24 14:51
我的诊断结果是:可能是网速问题。国外网站速度太慢,我再测试一下你的主题

你可以自己再测试一下,如果多 ...

还有什么好的方法可以解决这个问题吗? 换连续动作 瀑布流 你觉得怎么样?
举报 使用道具
8#
Fuller 管理员 发表于 2016-8-24 23:18:19 | 只看该作者
877994752 发表于 2016-8-24 16:33
还有什么好的方法可以解决这个问题吗? 换连续动作 瀑布流 你觉得怎么样? ...


请看红框,翻页标志前后有空格,很容易造成翻页规则失效,有些空格是看不到的,每一页的空格数量可能多可能少,就影响了规则的有效性。



像上图这样,不要选全匹配,昨晚记号映射以后,手工先把自动输入的记号值全删了,然后手工输入 Show more,这样生成的规则就好了


举报 使用道具
9#
877994752 中级会员 发表于 2016-8-25 10:32:29 | 只看该作者
Fuller 发表于 2016-8-24 23:18
请看红框,翻页标志前后有空格,很容易造成翻页规则失效,有些空格是看不到的,每一页的空格数量可能多 ...

就是把按钮Show more 重新用手动输入是吧?把 全匹配不选  就可以了吗?
举报 使用道具
10#
Fuller 管理员 发表于 2016-8-25 14:46:08 | 只看该作者
877994752 发表于 2016-8-25 10:32
就是把按钮Show more 重新用手动输入是吧?把 全匹配不选  就可以了吗?

是的,我都测试过了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 08:17