本帖最后由 ym 于 2016-5-30 16:00 编辑

常见问题 > 制作规则—常见问题导航 > 采集多层级网页数据 > 有第三级弹出页面的,如何抓取呢

看第二级网页,用MS谋数台分析一下第三级的网址是什么样子

1)如果是普通的超链接,弹出页面不影响,直接设置下级线索就行,因为第三级是与第二级分开抓取的。多级抓取网页的教程参看:集搜客如何抓取多层级网页
注意:不要以为抓完第二级会自动接着抓第三级,两级规则的采集是互相独立的,可运行多个DS窗口来采集。

2)如果分析第二级的时候,看不到有正常的超链接网址,就要分析一下,通过做什么动作才能看到第三级网页,如果是要点击网页按钮的话,就要用到连续动作或爬虫路线来实现,参考连续动作教程


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-5-31 10:16

fegnyunlou 新手上路 发表于 2016-5-30 15:14:54 | 显示全部楼层
请问一下:第三级抓取怎么实现呢?
举报 使用道具
ym 版主 发表于 2016-5-30 15:48:40 | 显示全部楼层
本帖最后由 ym 于 2016-5-30 15:49 编辑
fegnyunlou 发表于 2016-5-30 15:14
请问一下:第三级抓取怎么实现呢?

如果能从第二级点击链接跳转到第三级网页,那么就可以在第二级把链接抓下来,并设置下级线索指向第三级规则,再来定义第三级规则
如果不存在关联的链接,那么就要看看是要做什么点击动作才能跳转到第三级网页,点击的话可以通过连续动作或爬虫路线来实现
举报 使用道具
fegnyunlou 新手上路 发表于 2016-5-31 10:16:16 | 显示全部楼层
这个已经解决啦,还是谢谢啦!thank you!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:19