DS打数机抓取以后,通过统计功能,看到有失败的线索,应该怎么办?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-3 21:36

沙发
Fuller 管理员 发表于 2016-10-3 21:36:26 | 只看该作者
DS打数机的鼠标右键弹出菜单有 管理线索-〉激活失败线索 ,我建议先用这个功能把失败的重新激活,不要激活所有线索,只重新抓取失败的。

通常有一定比例失败的原因是网络不稳定,通过重新抓取,会补上这些失败线索。如果重抓以后还有失败的,那么记录下来DS打数机的日志窗口中显示的线索编号。DS打数机的日志窗口也有右键弹出菜单,通过选择菜单可以把失败日志导出来。

然后打开MS谋数台,选择菜单 工具-〉加载规则-〉按线索号,输入失败的线索号,加载以后看看哪些抓取内容定位不到。如果发现网页结构有变化,那么可以选择两种策略中的一种:
1)想办法将现有的抓取规则修改的更加通用
2)再定义一个规则,这个规则 与原先那个使用相同的主题名,但是规则编号不同,这是在“命名主题”工作台上做的。同一个主题下两个抓取规则可以各自应对不同的网页结构
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 11:35