点击网页上的链接,在弹出的浏览器窗口中显示内容,我抓包看了,发送了一个post消息,直接用那个网址加载网页,说是网址失效,能否采集?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-9-19 21:18

沙发
Fuller 管理员 发表于 2016-9-19 21:18:41 | 只看该作者
根据你的描述,这种情况需要飞掠模式进行采集,具体参看:http://www.gooseeker.com/doc/thread-2221-1-1.html

一方面是post消息加载的网页内容,另一方面是url网址是离开会话环境就失效的,再一方面就是在新窗口显示内容。这样情况下,普通的爬虫技术解决不了,而集搜客的飞掠模式专门解决这样的问题。飞掠模式是6.x版本开始的新功能,分成两部分:

1)飞掠标注:也就是给这样的网页做采集规则。网址不能单独加载,只能在弹出的窗口中即时做规则,在每个弹出窗口中,都有MS谋数台的做规则的能力,可以用直观标注,也可以用传统的内容映射。

2)飞掠抓取:采集这样的网站时,集搜客软件会自动管理和监控所有弹出的窗口,自动弹出,自动关闭,每个弹出窗口中都具有DS打数机的采集数据的能力。

总之,弹窗采集是集搜客网络爬虫特有的功能,需要运行GS爬虫浏览器。从这里下载:http://www.gooseeker.com/pro/product.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-12 03:51