大神好!
我通过2级规则抓取爱奇艺点赞和播放量,第一级我已经拿到爱奇艺播放url,通过二级规则具体抓取每一集节目的数据,因为爱奇艺网页结构有点特殊,所以用block功能获取相关内容,在map时数据完整,但是在抓取数据时因为网页没有完全打开即跳转,需要的点赞和播放量都是空值,请问有什么好的办法解决?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-2-3 15:50

ym 版主 发表于 2016-2-3 14:25:35 | 显示全部楼层
要确保采集的时候,DS打数机把网页加载上来。例如:
采集规则要勾上关键内容(选一个必然显示的抓取内容勾上),另外,DS打数机把配置菜单的超时时长的调大点,滚屏参数设小点,不要勾定时器触发,把配置浏览器里的选项都勾上,各参数说明看教程http://www.gooseeker.com/doc/thread-714-1-1.html
举报 使用道具
Fuller 管理员 发表于 2016-2-3 15:05:18 | 显示全部楼层
可能性最大的是没有设置关键内容

另外,勾选定时器触发也容易造成漏抓
举报 使用道具
singco890826 新手上路 发表于 2016-2-3 15:50:10 | 显示全部楼层
ym 发表于 2016-2-3 14:25
要确保采集的时候,DS打数机把网页加载上来。例如:
采集规则要勾上关键内容(选一个必然显示的抓取内容勾 ...

现在成果啦,后来我在crontab里面,设置<loadTimeout>600000</loadTimeout>,然后在二级规则里面给加上关键内容和定位标识
谢谢您的指导!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:35