本帖最后由 wangyong 于 2017-9-1 19:22 编辑

规则名:戴尔主题内容
  如测试结果所显示,底下的评论人及评论时间无法采集到
本以为是加载问题,已多次调整过延迟、超时、滚屏速度等参数,但都没有成功,打数机日志中显示已抓取成功,但需提高抓取速度,所以个人感觉应该不再上加载问题,希望各位大神帮忙解决一下。
登录网址:   http://www.ideastorm.com/   
采集样本网址:http://www.ideastorm.com/ideaView?id=0877000000006i6AAA
需先登录才能打开采集样本网址,可能会出现无法登录的情况,需多登陆几次。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2017-9-1 17:51

沙发
bowieD 金牌会员 发表于 2017-9-1 09:42:32 | 只看该作者
可以采到啊,点测试显示没问题,我采集的时候都能采到,你的延迟,超时和滚屏都设置成多少?应该是你的参数设置有问题

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
shengchengx 金牌会员 发表于 2017-9-1 09:47:00 | 只看该作者
评论人和评论时间加上关键内容试试,延迟和滚屏都打开。
举报 使用道具
地板
axu517 中级会员 发表于 2017-9-1 09:52:06 | 只看该作者
shengchengx 发表于 2017-9-1 09:47
评论人和评论时间加上关键内容试试,延迟和滚屏都打开。

勾选关键内容会出现匹配失败  延迟跟滚屏都已经打开了的

举报 使用道具
5#
shengchengx 金牌会员 发表于 2017-9-1 10:00:35 | 只看该作者
axu517 发表于 2017-9-1 09:52
勾选关键内容会出现匹配失败  延迟跟滚屏都已经打开了的

匹配失败要么规则有问题,要么就是超时时长设置的有问题。
你这边如果不勾选关键内容的话,在打数机上面采集的时候,网页还没加载完成,然后就开始采集,因为没有关键内容,即使数据没有抓取完全,也会提示采集成功的。
规则抓取的时候你看下打数机上面,是不是因为网页没有加载完就开始抓取了。

举报 使用道具
6#
bowieD 金牌会员 发表于 2017-9-1 10:03:02 | 只看该作者
我运行你的规则是没有问题的,数据也全部抓下来了,勾选一个关键内容。
举报 使用道具
7#
axu517 中级会员 发表于 2017-9-1 10:33:28 | 只看该作者
bowieD 发表于 2017-9-1 10:03
我运行你的规则是没有问题的,数据也全部抓下来了,勾选一个关键内容。

把评论人跟评论时间勾选上吗? 可是我这边会抓取失败

举报 使用道具
8#
bowieD 金牌会员 发表于 2017-9-1 10:34:29 | 只看该作者
随便勾选一个,我勾选的用户名
举报 使用道具
9#
axu517 中级会员 发表于 2017-9-1 12:48:57 | 只看该作者
bowieD 发表于 2017-9-1 10:34
随便勾选一个,我勾选的用户名

我试了好多次 都不行啊。。。

举报 使用道具
10#
axu517 中级会员 发表于 2017-9-1 13:04:38 | 只看该作者
shengchengx 发表于 2017-9-1 10:00
匹配失败要么规则有问题,要么就是超时时长设置的有问题。
你这边如果不勾选关键内容的话,在打数机上面采 ...

网页是完全加载到底部的     我不知道是不是我参数设置问题,但是我都已经设置很大了 还是不行

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-11 02:58