这几天在抓京东数据的时候,抓了大约300条以后老是抓取重复数据,抓取的速度并不快,一分钟大约才30条左右,大家有知道怎么回事的么?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-4-30 18:55

Fuller 管理员 发表于 2016-4-29 17:16:15 | 显示全部楼层
是翻页抓取还是抓独立的网页?

如果是翻页,手工翻页看看是否有重复。

我们以前遇到过,是京东网站的问题,过段时间就出现这个问题
举报 使用道具
houwenlong1993 初级会员 发表于 2016-4-29 22:22:45 | 显示全部楼层
Fuller 发表于 2016-4-29 17:16
是翻页抓取还是抓独立的网页?

如果是翻页,手工翻页看看是否有重复。

是抓取翻页的,要是抓取的商品的评论小于1万条的就不出现这种情况,但是大于一万条就会出现大量重复
举报 使用道具
Fuller 管理员 发表于 2016-4-29 22:34:04 | 显示全部楼层
houwenlong1993 发表于 2016-4-29 22:22
是抓取翻页的,要是抓取的商品的评论小于1万条的就不出现这种情况,但是大于一万条就会出现大量重复 ...

可能京东网站只能让大家看1万条
举报 使用道具
houwenlong1993 初级会员 发表于 2016-4-30 17:56:26 | 显示全部楼层
Fuller 发表于 2016-4-29 22:34
可能京东网站只能让大家看1万条

不是的,只要爬评论多的产品就会出现大量重复,评论少的还可以,我想问一下,以前怎么处理的
举报 使用道具
Fuller 管理员 发表于 2016-4-30 18:55:32 | 显示全部楼层
houwenlong1993 发表于 2016-4-30 17:56
不是的,只要爬评论多的产品就会出现大量重复,评论少的还可以,我想问一下,以前怎么处理的 ...

这种情况是京东网站的原因,其实没有太好的办法,只能在抓取下来以后做过滤
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:22