滚屏很多次后才出现 下一页 标签的, 这时候做记号线索貌似会无效, 做下一页标签的单击事件,翻页后 爬取数据到一半就结束了。  有没有什么好的建议

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-1-20 12:02

沙发
xandy 论坛元老 发表于 2017-1-20 11:29:14 | 只看该作者
本帖最后由 xandy 于 2017-1-20 11:31 编辑

滚屏次数设置了多少?勾选了定时触发吗?超长延时设置了多少?
举报 使用道具
板凳
月球漫步 中级会员 发表于 2017-1-20 11:30:41 | 只看该作者
xandy 发表于 2017-1-20 11:29
滚屏次数设置了多少?勾选了定时出发吗?超长延时设置了多少?

滚屏次数设了100,关了定时触发,超长延时20s
举报 使用道具
地板
xandy 论坛元老 发表于 2017-1-20 11:37:36 | 只看该作者
月球漫步 发表于 2017-1-20 11:30
滚屏次数设了100,关了定时触发,超长延时20s

你的超长延时设置太短了。
超时时长:抓取网页的时候,加载目标网页以后等待一段时间,以确保网页内容全面加载,这就是超时时长参数,以秒为单位。
碰到这类网页,可以把超长延时设长一点,让网页尽量加载。
定时触发勾选是对的,不勾定时触发就是等页面加载完再采集,勾了定时触发就是不管页面有没有加载完到了时间就采集。
你采集的网页要滚屏,滚屏次数大于0表示滚屏采集,所以设置一个合适的值就可以了。
举报 使用道具
5#
fenglinwan_ 初级会员 发表于 2017-1-20 11:40:45 | 只看该作者
各位大大, 规则名 : maywide_weibo_star_wbinfo
举报 使用道具
6#
fenglinwan_ 初级会员 发表于 2017-1-20 11:42:06 | 只看该作者
测试网址:  http://weibo.com/u/1549364094?profile_ftype=1&is_all=1#_0
举报 使用道具
7#
xandy 论坛元老 发表于 2017-1-20 11:44:56 | 只看该作者
fenglinwan_ 发表于 2017-1-20 11:42
测试网址:  http://weibo.com/u/1549364094?profile_ftype=1&is_all=1#_0

滚屏次数与滚屏速度分别设置为5和3,碰到这种网页,参数调整没有固定的,要自己不断调优试试。
举报 使用道具
8#
Fuller 管理员 发表于 2017-1-20 12:02:40 | 只看该作者
可以直接使用微博采集工具箱中的博主首页采集工具
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-18 14:56