,今天上午使用还是一切正常,下午采集数据时,打数机一直停留在网址的最后一页,而且等待很久也没有显示采集完毕,在XML里面也无法显示数据,之前使用一切正常。刚刚全部卸载并且重新安装了,还是一样的情况
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-10-20 17:40

沙发
我最美只是我 新手上路 发表于 2016-10-20 15:53:40 | 只看该作者
在文件夹里打开看里面是有数据的,但在表格里面不显示
举报 使用道具
板凳
ym 版主 发表于 2016-10-20 16:06:25 | 只看该作者
本帖最后由 ym 于 2016-10-20 16:08 编辑

1、打数机停在最后一页具体是什么情况,可以的话截图看看
2、DS打数机配置菜单有个超时时长,一般超过这个时间就会采集下一条网址。超时时长默认是60s,一般可以根据网页加载时间可以调大点,但不会一直是采集中的状态。
3、可以勾上配置菜单->定时器触发试试,它可以加快采集速度。
4、xml是要采集完一个网页才会生成的,如果生成的xml是空白的,说明网页数据没加载出来,才会空白,这种情况需要缓一段时间再采集,并且清空浏览器cookies、缓存
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-20 17:40:13 | 只看该作者
我估计不是停留在最后,而是到最后一页一直在重复采集。有些网页到最后一页,“下一页”照样能点,那样就停不下了,需要在DS打数机上做设置,选择菜单 高级-》终点标志-》重复内容。如果运行爬虫群,在会员中心设置调度参数也有对应的一项。

遇到重复内容,连续重复3次就结束了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 17:22