11#
golgo_forever 初级会员 发表于 2018-2-11 16:15:43 | 只看该作者
Fuller 发表于 2018-2-11 11:52
我看到你下载了我做的规则,我把积分退还给你了,你可以尝试一下新发布的那套规则,一共3级,采集的信息 ...

嗯,正在尝试。发现知乎很多重复的问题。。。 90%以上全部重复的

举报 使用道具
12#
Fuller 管理员 发表于 2018-2-11 16:23:25 | 只看该作者
golgo_forever 发表于 2018-2-11 16:15
嗯,正在尝试。发现知乎很多重复的问题。。。 90%以上全部重复的

因为一个人问,好几个回答,或者评论,都会在列表中出现一次,可以根据网址过滤重复。知乎的网址结构特别清晰,含有问题部分和回答部分。

另外,因为是瀑布流,往下滚屏采集的时候,如果上面的老数据没有清除,那么一直重复,重复量好大,而且还会因为内存不够导致程序退出
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-1 11:12