测试时可以抓取到页面内容,用打数机抓取显示匹配失败,而且是在滚屏到页面加载完后立刻显示匹配失败,统计线索中显示均为超时失败, 设置超时时长也不管用,请问是什么原因?
任务名:
路透华为新闻详情0405改1




超时.JPG
匹配失败.JPG
测试.JPG
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-4-6 11:02

maomao 论坛元老 发表于 2020-4-5 16:27:59 | 显示全部楼层
给整个整理箱做个标志定位映射, 欧洲1.png





并改变整理箱定位方式


欧洲2.png
举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-4-5 17:13:12 | 显示全部楼层
maomao 发表于 2020-4-5 16:27
给整个整理箱做个标志定位映射,

谢谢您的建议,修改之后又出现新的报错,请问这个该怎么解决?
报错.png
举报 使用道具
微舆情 高级会员 发表于 2020-4-5 19:47:11 | 显示全部楼层
看你贴的错误提示,应该是样本页面没加载全或者不是你做规则的页面
你试试把软件重启下,然后重新加载规则
举报 使用道具
微舆情 高级会员 发表于 2020-4-5 19:53:48 | 显示全部楼层
你这个规则的页面我加载不出来
看主题名:路透华为新闻详情0405改1  , 应该是抓取新闻详情页面的
如果详情页面有多种页面结构, 需要对每种页面页面结构单独做规则, 参看怎么在同一个主题名下建立多个规则
举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-4-5 20:49:09 | 显示全部楼层
微舆情 发表于 2020-4-5 19:53
你这个规则的页面我加载不出来
看主题名:路透华为新闻详情0405改1  , 应该是抓取新闻详情页面的
如果详情 ...

页面加载不出来可能是因为我爬的是国外的网站,需要梯子才能加载出来。我又重新加载试了下,还是报这个错,冻结页面也不行。还有我看了我爬的详情页面的结构都是一样的,能不能再麻烦您帮我找找报那个错的原因,谢谢您的回答。
举报 使用道具
微舆情 高级会员 发表于 2020-4-5 22:48:09 | 显示全部楼层
wangxiaoshuang 发表于 2020-4-5 20:49
页面加载不出来可能是因为我爬的是国外的网站,需要梯子才能加载出来。我又重新加载试了下,还是报这个错 ...

我想想办法,看看能否加载你的规则看看

举报 使用道具
微舆情 高级会员 发表于 2020-4-5 23:22:36 | 显示全部楼层
TIM截图20200405231918.png

我加载了你的规则,测试没问题。
另存了一个主题名,用DS打数机实际抓取也没有问题,我用的单搜,几个参数如下:
滚屏次数 20 , 滚屏速度 2
超时时长 60秒
延迟抓取 30秒

举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-4-6 11:02:06 | 显示全部楼层
微舆情 发表于 2020-4-5 23:22
我加载了你的规则,测试没问题。
另存了一个主题名,用DS打数机实际抓取也没有问题,我用的单搜,几个参 ...

我又重新做了个任务成功了,原因是不能把定位选择为偏好class,还是要偏好id,谢谢您的回答。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:59