11#
ym 版主 发表于 2016-9-6 11:25:01 | 只看该作者
本帖最后由 ym 于 2016-9-6 11:27 编辑

你抓的第一级网页是瀑布流类型的网页,是点击‘加载更多’就增加显示新内容,并且该网页随着点击‘加载更多’会变得越来越长。
这类网页勾选重复内容是无法停止的,因为重复内容的判断条件是相同的网页重复出现三次才会停止,而瀑布流网页每次点击都会增加新内容,网页内容是不相同的。
瀑布流网页,每点击加载更多,就会新增一个xml,xml的数据量是累积的,最后抓到的那个xml就是数据量最大的文件,所以,你可以只要最后一个xml文件,前面生成的xml都是重复的
举报 使用道具
12#
1378099730 初级会员 发表于 2016-9-6 13:22:23 | 只看该作者
本帖最后由 1378099730 于 2016-9-6 13:24 编辑
ym 发表于 2016-9-6 11:25
你抓的第一级网页是瀑布流类型的网页,是点击‘加载更多’就增加显示新内容,并且该网页随着点击‘加载更多 ...

我的确选择是最后生成的那一个XML文件,但是前面100条信息都是正常无重复的。100条之后的内容就是我抓取的第一页信息开始重复出现了。
举报 使用道具
13#
ym 版主 发表于 2016-9-6 14:11:23 | 只看该作者
1378099730 发表于 2016-9-6 13:22
我的确选择是最后生成的那一个XML文件,但是前面100条信息都是正常无重复的。100条之后的内容就是我抓取的 ...

那就在excel里过滤一下重复数据吧
举报 使用道具
14#
1378099730 初级会员 发表于 2016-9-6 14:14:17 | 只看该作者
ym 发表于 2016-9-6 14:11
那就在excel里过滤一下重复数据吧

可是如果这样的话我数据爬取的不完整啊,哎哎
举报 使用道具
15#
ym 版主 发表于 2016-9-6 14:17:37 | 只看该作者
自己观察一下爬虫的采集情况,看看是否点击到最底部,我估计是DS窗口采集到中间就没有加载更多新内容了,估计是规则的问题或者是DS打数机参数的问题,自己多调试一下吧
举报 使用道具
16#
1378099730 初级会员 发表于 2016-9-6 14:18:46 | 只看该作者
ym 发表于 2016-9-6 14:17
自己观察一下爬虫的采集情况,看看是否点击到最底部,我估计是DS窗口采集到中间就没有加载更多新内容了,估 ...

好的。谢谢你啦
举报 使用道具
17#
1378099730 初级会员 发表于 2016-9-6 16:26:20 | 只看该作者
ym 发表于 2016-9-6 14:17
自己观察一下爬虫的采集情况,看看是否点击到最底部,我估计是DS窗口采集到中间就没有加载更多新内容了,估 ...

我找到问题了。是我采取的网页问题,10页之后它自身就一直重复第一页的信息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-14 03:09