这几天在抓看准网员工点评数据的时候,抓了大约100条以后老是抓取重复数据,大家有知道怎么回事的么?
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-9-6 16:26

沙发
Fuller 管理员 发表于 2016-9-6 09:05:12 | 只看该作者
我估计你在做翻页抓取,有些网页即使翻页到底了,还能继续点击“下一页”,遇到这种情况,需要选择DS打数机的菜单 高级 -》 终点标志 -》 重复内容 ,遇到重复内容就中断
举报 使用道具
板凳
1378099730 初级会员 发表于 2016-9-6 09:20:15 | 只看该作者
Fuller 发表于 2016-9-6 09:05
我估计你在做翻页抓取,有些网页即使翻页到底了,还能继续点击“下一页”,遇到这种情况,需要选择DS打数机 ...

我选过了啊。还是这样的
举报 使用道具
地板
ym 版主 发表于 2016-9-6 09:44:03 | 只看该作者
本帖最后由 ym 于 2016-9-6 09:45 编辑

如果你是用DS打数机的‘单搜/集搜’来爬数据,就要设置‘高级菜单->终点标志->重复内容’;
如果你是用爬虫群采集的话,应该是在规则的调度设置的‘重复内容中断’选择‘是’。
详细说明参见http://www.gooseeker.com/doc/thread-1992-1-1.html
举报 使用道具
5#
1378099730 初级会员 发表于 2016-9-6 09:46:36 | 只看该作者
ym 发表于 2016-9-6 09:44
如果你是用DS打数机的‘单搜/集搜’来爬数据,就要设置‘高级菜单->终点标志->重复内容’;
如果你是用爬 ...

我用的是打印机中的单搜功能,在开始爬数据的时候就已经设置了终点标志。但是结果还是有问题。
举报 使用道具
6#
1378099730 初级会员 发表于 2016-9-6 09:49:32 | 只看该作者
ym 发表于 2016-9-6 09:44
如果你是用DS打数机的‘单搜/集搜’来爬数据,就要设置‘高级菜单->终点标志->重复内容’;
如果你是用爬 ...

截图

QQ截图20160906094708.png (32.07 KB, 下载次数: 740)

QQ截图20160906094708.png
举报 使用道具
7#
ym 版主 发表于 2016-9-6 09:50:08 | 只看该作者

把规则名发出来看看
举报 使用道具
8#
1378099730 初级会员 发表于 2016-9-6 09:56:06 | 只看该作者
ym 发表于 2016-9-6 09:50
把规则名发出来看看

第一级
举报 使用道具
9#
1378099730 初级会员 发表于 2016-9-6 09:56:37 | 只看该作者
ym 发表于 2016-9-6 09:50
把规则名发出来看看

第二级
举报 使用道具
10#
ym 版主 发表于 2016-9-6 11:12:37 | 只看该作者
把规则名发出来,不用发链接,链接都是错误的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 19:43