规则名:weiboyi_xq_gy
样本网页(可能需要登录): http://chuanbo.weiboyi.com//sing ... amp;sign=9078016e1c

网页上有一个词云,如下图,写了Xpath想逐个抓取下来【共100个】


测试结果如下【共100个】


用爬虫群抓取后,这一部分的数据仅抓取到了十几个,没有抓全(数据见附件)。

请问需要如何解决?~~ 蟹蟹!!!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-1-9 22:07

沙发
bowieD 金牌会员 发表于 2018-1-9 17:18:42 | 只看该作者
你的附件里面不是把100个词都抓下来了吗?有数据的刚好是一100行。
举报 使用道具
板凳
closeyoo 中级会员 发表于 2018-1-9 19:46:46 | 只看该作者
bowieD 发表于 2018-1-9 17:18
你的附件里面不是把100个词都抓下来了吗?有数据的刚好是一100行。

100行是100条线索~
每条线索的【文章热词】字段值应该有100个SPAN的值,但只有14个

举报 使用道具
地板
closeyoo 中级会员 发表于 2018-1-9 20:01:31 | 只看该作者
bowieD 发表于 2018-1-9 17:18
你的附件里面不是把100个词都抓下来了吗?有数据的刚好是一100行。

解决了!!!增大了【线索间等待时间】!之前等待时间太短,没有抓全就执行下一条线索了~
蟹蟹你!!!

举报 使用道具
5#
closeyoo 中级会员 发表于 2018-1-9 20:01:45 | 只看该作者
bowieD 发表于 2018-1-9 17:18
你的附件里面不是把100个词都抓下来了吗?有数据的刚好是一100行。

辛苦了!
举报 使用道具
6#
Fuller 管理员 发表于 2018-1-9 21:03:57 | 只看该作者
closeyoo 发表于 2018-1-9 20:01
解决了!!!增大了【线索间等待时间】!之前等待时间太短,没有抓全就执行下一条线索了~
蟹蟹你!!!

线索间等待时间不是这样用的,用在这个场合很不适合,很可能会漏数据。为了等待网页内容的加载,应该打开滚屏功能。

你设置“线索等待时间”是在会员中心设置的?在那一堆调度参数中,有滚屏参数,把滚动次数设置成大于0的数字,比如,2或者5,就能启动自动滚屏,相当于做等待

举报 使用道具
7#
closeyoo 中级会员 发表于 2018-1-9 22:07:24 | 只看该作者
Fuller 发表于 2018-1-9 21:03
线索间等待时间不是这样用的,用在这个场合很不适合,很可能会漏数据。为了等待网页内容的加载,应该打开 ...

好滴!!!!
学习了~

谢谢Fuller大神~

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-12 04:12