我用另一款采集其,我在抓取这个网站数据时http://www.huya.com/l,设置了ajax自动滚动,但是采集时却无法自动采集,是因为是全瀑布流网站吗?请问怎么解决呢?谢谢!
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-12-22 22:52

Fuller 管理员 发表于 2015-12-22 22:52:23 | 显示全部楼层
真正的瀑布流网页是没有底的,或者说很长,当往下滚屏的时候,上面的内容就从网页上删除了,如果不滚屏,下面的内容又不会加载上来。普通的网页采集器软件往往顾了上头顾不了下头,而另一些不支持ajax的网页采集器那就更无计可施了。

GooSeeker网络爬虫推出了连续滚屏功能,就像照相机的全景拍摄功能,一节一节地记录信息。连续滚屏是众多连续动作中的一个,详细参看:http://www.gooseeker.com/doc/article-141-1.html

注意要与GooSeeker的自动滚屏功能进行区别,自动滚屏是也用于抓取长网页,但是还不算长,比如,京东商品的详情页,虽然有很多图文,但是能滚动到底,而且也不会出现顾头不顾尾的情形,那么用自动滚屏滚到底一次性抓下来。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-7 04:41