在爬取看准网员工点评的时候100条之后抓取的数据就重复了。

ym · 发表于 2016-9-6 11:25:01

本帖最后由 ym 于 2016-9-6 11:27 编辑

你抓的第一级网页是瀑布流类型的网页，是点击‘加载更多’就增加显示新内容，并且该网页随着点击‘加载更多’会变得越来越长。
这类网页勾选重复内容是无法停止的，因为重复内容的判断条件是相同的网页重复出现三次才会停止，而瀑布流网页每次点击都会增加新内容，网页内容是不相同的。
瀑布流网页，每点击加载更多，就会新增一个xml，xml的数据量是累积的，最后抓到的那个xml就是数据量最大的文件，所以，你可以只要最后一个xml文件，前面生成的xml都是重复的

1378099730 · 发表于 2016-9-6 13:22:23

本帖最后由 1378099730 于 2016-9-6 13:24 编辑

ym 发表于 2016-9-6 11:25
你抓的第一级网页是瀑布流类型的网页，是点击‘加载更多’就增加显示新内容，并且该网页随着点击‘加载更多 ...

我的确选择是最后生成的那一个XML文件，但是前面100条信息都是正常无重复的。100条之后的内容就是我抓取的第一页信息开始重复出现了。

ym · 发表于 2016-9-6 14:11:23

1378099730 发表于 2016-9-6 13:22
我的确选择是最后生成的那一个XML文件，但是前面100条信息都是正常无重复的。100条之后的内容就是我抓取的 ...

那就在excel里过滤一下重复数据吧

1378099730 · 发表于 2016-9-6 14:14:17

ym 发表于 2016-9-6 14:11
那就在excel里过滤一下重复数据吧

可是如果这样的话我数据爬取的不完整啊，哎哎

ym · 发表于 2016-9-6 14:17:37

自己观察一下爬虫的采集情况，看看是否点击到最底部，我估计是DS窗口采集到中间就没有加载更多新内容了，估计是规则的问题或者是DS打数机参数的问题，自己多调试一下吧

1378099730 · 发表于 2016-9-6 14:18:46

ym 发表于 2016-9-6 14:17
自己观察一下爬虫的采集情况，看看是否点击到最底部，我估计是DS窗口采集到中间就没有加载更多新内容了，估 ...

好的。谢谢你啦

1378099730 · 发表于 2016-9-6 16:26:20

ym 发表于 2016-9-6 14:17
自己观察一下爬虫的采集情况，看看是否点击到最底部，我估计是DS窗口采集到中间就没有加载更多新内容了，估 ...

我找到问题了。是我采取的网页问题，10页之后它自身就一直重复第一页的信息

在爬取看准网员工点评的时候100条之后抓取的数据就重复了。

浏览过的版块

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页