下级线索重复容忍度是什么意思?要怎么设置
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-10 18:19

沙发
Fuller 管理员 发表于 2016-11-10 18:19:12 | 只看该作者
假设你做了一个层级抓取,第一级主题名A,第二级主题名B,层级抓取的意思就是运行A的时候能为B生成线索。
现在假设你要做一个舆情监测系统,每天都要重新抓取一次A,看看有没有新的消息。A相当于新闻列表,B相当于新闻详情,那么,你想做增量抓取,也就是每天不要把A的整个列表都抓一遍,只需把新出现的新闻抓一遍。那么就要用到线索重复容忍度。

把线索重复容忍度设置成80%,当运行A的时候,会统计有多少抓到的B的线索是以前已经抓过得,如果连续翻了3页都达到80%的重复,那么就会中断抓取。

这个参数可以与“激活下级线索”配合使用。因为要连续翻3页才能判断是否重复,所以,总会抓到B的重复线索,如果“激活下级线索”设置成“否”,即使重复抓到了B的线索,也不会重复激活它
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 16:40