主题名---》cq高中1   有838个数据 抓取完成也是838个数据但是这些数据有9个重复的  也就是说漏抓了9个数据  帮忙看一下什么问题谢谢

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-12-7 10:04

沙发
HJLing 版主 发表于 2016-12-6 16:09:26 | 只看该作者
结果文件可以看到有个字段是<pageno> 是用来记录当前的页码的 页码数=<pageno>+1
你可以找到重复的学校 回到页面去看看 是不是页面也是重复
举报 使用道具
板凳
HJLing 版主 发表于 2016-12-6 16:20:05 | 只看该作者
测试采了一遍 838个数据 没有重复值

举报 使用道具
地板
wsj521 初级会员 发表于 2016-12-6 16:22:07 | 只看该作者
HJLing 发表于 2016-12-6 16:20
测试采了一遍 838个数据 没有重复值

为什么我抓取的有啊

举报 使用道具
5#
HJLing 版主 发表于 2016-12-6 16:23:39 | 只看该作者
wsj521 发表于 2016-12-6 16:22
为什么我抓取的有啊

你是怎么有重复?学校名字?

举报 使用道具
6#
wsj521 初级会员 发表于 2016-12-7 09:43:47 | 只看该作者
HJLing 发表于 2016-12-6 16:23
你是怎么有重复?学校名字?

我晚上又跑了一遍 没有重复的  可是之前跑的好几次的确有重复的 就是一天记录 一条数据
举报 使用道具
7#
HJLing 版主 发表于 2016-12-7 10:04:16 | 只看该作者
wsj521 发表于 2016-12-7 09:43
我晚上又跑了一遍 没有重复的  可是之前跑的好几次的确有重复的 就是一天记录 一条数据
...

你按照一楼说的方法 回去找一下重复数据 按理说 页面是怎样的数据 爬虫就采怎样的数据

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 18:09