本帖最后由 xandy 于 2017-5-31 16:47 编辑

集搜客GooSeeker网络爬虫有三个酷炫、狂拽、吊炸天的功能
然而很多小伙伴都不知道
能够辅助你们“升级打怪”的装备你们居然不知道!
所以今天我们一起聊聊这三个装备的功能和应用价值

连发弹仓
装备功能:在连续动作中可以大批量导入关键词,实现关键词自动搜索采集。
应用场景:
  • 大批量自动化执行关键词搜索和进行搜索引擎特征研究
  • 百度关键词联想
  • 淘宝蓝海挖掘
  • 专利网大批量输入关键词采集专利信息
  • 输入企业名称收集企业目录
  • ... ...
操作界面:开通之后可以在会员中心相应的规则管理中给线索添加关键词(可容纳1万个词)。运行规则后,集搜客GooSeeker网络爬虫将自动执行这一批关键词搜索结果的采集。
会员中心连发弹仓界面.jpg
购买入口连发弹仓(可以按需购买)

飞掠模式
装备功能
  • 无论网页怎样跳转和弹窗,都能自动把你需要的信息采集下来。
  • 可以同时给多个网页做抓取规则,基础版的集搜客GooSeeker网络爬虫只能运行一个MS谋数台,飞掠模式的集搜客GooSeeker网络爬虫可以同时运行多个MS谋数台。打开多个窗口,多级规则可以互相参照着定义。
应用场景:
  • 每在网页上做个动作会弹出一个新的窗口,显示新的内容,并且这个窗口的URL网址是不变的;
  • 用Python模拟post发送消息没有飞掠模式省时省力,因为post消息带上去的参数很多,包括认证信息、会话信息、cookie等等,很多很快就失效,还得一遍遍尝试和调整。
小贴士
  • 如果一个超链接有独立的网址,那么既不用连续动作,也不用飞掠模式,像Google爬虫一样层级采集就行了。
  • 飞掠模式功能是在GS浏览器实现的,集搜客网络爬虫的火狐插件版不支持飞掠模式。
操作界面:和MS谋数台不同的是,用飞掠模式做规则的DOM树窗口在下面,通过点击工具条上飞掠模式按钮,可以打开或关闭飞掠模式,这样使得网页的可视化范围更大了。
飞掠模式.png
获得装备:飞掠模式含GS浏览器上的飞掠标注和DS打数机上的飞掠抓取。
  • 飞掠标注:同时定义多级采集规则(这是免费开放的功能)
  • 飞掠抓取:启动爬虫,开始采数据(该功能购买后才能使用)
购买入口飞掠模式(目前旗舰版支持飞掠模式)

连续打码
装备功能:与第三方打码平台自动对接,采集过程中碰到验证码将自动进行打码。
应用场景:不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有效地采到更多数据。
操作界面:连续打码要在MS谋数台的连续动作中进行定义,具体操作参看教程。
连续打码.png
购买入口连续打码(目前旗舰版支持飞掠模式)

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-11 12:10

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 18:29