瀑布流翻页  为什么会把上面爬到的数据重新抓取下来
????

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-1-10 07:24

ym 版主 发表于 2016-10-27 16:36:15 | 显示全部楼层
因为这类瀑布流网页在不断地加载新数据的时候,老数据还是保留在html里的,所以,就会把html里的所有数据都采集下来,并不能区分新旧数据,针对这种情况,只要保留最后采到的那个xml文件,里面就包含了该瀑布流网页的所有数据了。
举报 使用道具
addmoresalt 初级会员 发表于 2017-1-10 07:05:54 | 显示全部楼层
遇到了同样问题,但是每个xml内容都一样,请问如何解决
举报 使用道具
Fuller 管理员 发表于 2017-1-10 07:09:54 | 显示全部楼层
addmoresalt 发表于 2017-1-10 07:05
遇到了同样问题,但是每个xml内容都一样,请问如何解决

观察浏览器,往下滚屏的时候有没有显示新内容出来
举报 使用道具
addmoresalt 初级会员 发表于 2017-1-10 07:14:58 | 显示全部楼层
Fuller 发表于 2017-1-10 07:09
观察浏览器,往下滚屏的时候有没有显示新内容出来

浏览器显示出来了,点击成功了一直在往下拉,但是数据显示每次拉完一次就重复抓一遍第一页数据,后面新产生的数据没有进入到循环中。会不会是案例复制管理的问题,有高级在设置的方法么?谢谢!
举报 使用道具
Fuller 管理员 发表于 2017-1-10 07:24:09 | 显示全部楼层
addmoresalt 发表于 2017-1-10 07:14
浏览器显示出来了,点击成功了一直在往下拉,但是数据显示每次拉完一次就重复抓一遍第一页数据,后面新产 ...

也可能是规则的问题,把规则加载上来,然后往下滚动,看到新内容,选择菜单 规则-》刷新页面结构,再选择 分析页面,然后点击“测试”按钮,看看能否抓到新内容。再观察DOM,新出现的内容,dom结构有没有变化
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:39