网页上有个列表,我想点击列表上的每一项,把这项的内容采集下来。点击每一项的时候,会在一个新窗口中显示。集搜客网络爬虫能做吗?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-9-28 12:33

沙发
Fuller 管理员 发表于 2016-9-28 12:25:12 | 只看该作者
集搜客网络爬虫的使用教程一般不用“循环”这个词,因为网络爬虫程序自动处理循环过程,不需要你明确定义每个循环过程,尤其是嵌套循环的时候,要层层规划,很麻烦,集搜客网络爬虫能自动定义循环。

一个循环是一系列连续动作,所以,在集搜客用户手册中,叫“连续动作”,你不必定义循环过程,只需告诉软件:你想对哪些网页节点做动作。

要做一系列动作,那说明承受动作的网页节点有多个,形成一个集合。XPath表达式定位到的节点本来就是一个集合,所以,用集搜客网络爬虫的时候,只需定义一个XPath,指明一个节点集合,那么爬虫会自动挨个去点击,所以,不用规划出来一个循环。
如果出现嵌套,那就是把内层的动作做了一遍以后,让外层做一次动作,然后,内层再次归零后又做一遍。这个过程就像家里的电表,低位数字+1,+1往上跳,跳满了就进一位,低位再从0开始往上跳,循环往复。

所以,无论嵌套多少层,只需为每一层把XPath写好,每一层都能定位到一个节点集合。把每一层按照高位->低位的顺序排好,网络爬虫就按进位顺序跳表运行,形成一个嵌套循环
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-28 12:33:06 | 只看该作者
点击每一项后,内容显示在另一个窗口中,那么就要检查一下:新内容是否有独立网址,如果有,那么这是个普通的层级抓取。如果没有,才需要用连续动作 做点击,而且还要打开飞掠模式,抓弹出窗口:http://www.gooseeker.com/doc/thread-2221-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-20 03:39