|
本帖最后由 ym 于 2016-9-6 11:27 编辑
你抓的第一级网页是瀑布流类型的网页,是点击‘加载更多’就增加显示新内容,并且该网页随着点击‘加载更多’会变得越来越长。
这类网页勾选重复内容是无法停止的,因为重复内容的判断条件是相同的网页重复出现三次才会停止,而瀑布流网页每次点击都会增加新内容,网页内容是不相同的。
瀑布流网页,每点击加载更多,就会新增一个xml,xml的数据量是累积的,最后抓到的那个xml就是数据量最大的文件,所以,你可以只要最后一个xml文件,前面生成的xml都是重复的
|
|