连续动作的界面介绍

2017-1-9 15:39| 发布者: ym| 查看: 17518| 评论: 0

摘要: 各个动作类型的界面基本上是大同小异的,下面以点击动作为例介绍一下界面上的功能按钮。主要是: 目标主题名新建、删除、排序等操作按钮定位表达式、动作名称、高级设置等与某个动作相关的设置 目标主题名 连续动作 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

各个动作类型的界面基本上是大同小异的,下面以点击动作为例介绍一下界面上的功能按钮。主要是:

  • 目标主题名
  • 新建、删除、排序等操作按钮
  • 定位表达式、动作名称、高级设置等与该动作类型相关的设置


目标主题名

连续动作的目标主题名只能填一个,作用是告诉爬虫连续动作之后的网页要使用哪个抓取规则。当连续动作执行前后的网页结构发生变化,就必须填不同的目标主题名,不能填当前主题名,工作原理是与层级采集类似;当前后的网页结构不变,既可以填不同的主题名,也可以填当前主题名,原理是与翻页采集类似,总之,是否使用相同的主题名要根据网页结构是否改变做判断。


新建

新建一个动作,然后选择动作类型;这是按顺序建立的,如果需要调整顺序,可以点击“排序”按钮。


删除

删除当前的动作步骤。


排序

爬虫是按照动作步骤的先后顺序来执行的,如果有多个动作,可以通过“排序”来调整执行顺序。


定位表达式

作用是锁定操作范围和动作对象的数量,通过xpath表达式来指定,所以,定位表达式要填上准确的xpath,才能让爬虫自动执行相应的动作。如果XPath表达式定位到多个节点,DS打数机就会自动编排循环模式,不用人工规划循环过程(具体参看“必做”一节)。这里的xpath支持相对定位和绝对定位,可以自己编写,也可以用“显示XPath”功能生成。下面介绍一下 “显示XPath”功能的用法:

通过点击网页上的动作对象,然后点击“显示XPath”按钮,选择其中一种模式,在方框里就会自动生成xpath,点击“搜索”按钮检查一下是否定位到想要的动作对象节点。

注意:如果想得到多个动作对象循环的效果,但是自动生成的xpath只定位到一个动作对象,就要手工修改xpath来满足。


动作名称

自定义的名称,就是动作的说明,方便修改连续动作。


高级设置

额外延时

让爬虫在执行动作后再等待额外的时间,然后再去执行下一步动作。额外延时主要有两个作用,一是延长等待时间,因为很多网页是ajax异步加载的,需要等待一定时间才会加载出全部信息,延长时间可以确保网页加载完全,防止数据漏抓。二是更加逼真地模仿人的浏览行为,让网站无法识别出是爬虫工具,从而避开反爬手段。


起点

如果定位表达式的xpath锁定了多个动作对象,但不想从第一个对象开始,就可以通过起点来指定从第几个开始。特别是选择动作,由于它的定位表达式是定位到整个下拉菜单的select节点,而不是某个选项的option节点,就要通过起点来指定从第几个选项开始。


跨度

如果定位表达式的xpath锁定了多个动作对象,但不想按顺序执行每一个动作对象,就可以通过跨度设置一个间隔数,爬虫就会按照间隔数跳着执行下一个动作对象。例如选择动作,起点为3,跨度为10,爬虫第一次是点击第3个选项,第二次是点击第13个选项,…,以此类推。


必做

新建一个动作,默认都是勾上必做的,顾名思义,是指每次循环都要执行的动作。在《把信息与连续动作步骤对应起来》一文中,设置的两个点击动作都是默认必做,它的执行流程就是如图(1)所示,每次都会先点击一级目录,再点击二级目录;如果第一个点击动作不勾必做,第二个动作依然默认必做,那么它的执行流程就会变成图(2)的过程,这时就不会每次都点击一级目录,而是在切换目录时才点击一次。是否必做,请根据实际网页的情况进行调试。


模拟点击

默认是勾上模拟点击,作用是让爬虫更逼真地模拟人浏览网页的行为,避免被网站监测出是爬虫。

但是勾上模拟点击,只能对网页上显示出来的位置进行点击,无法点击底层的网页标签。例如,如果网页是采用CSS控制了多个HTML标签的显示层次,最上层是一个小浮窗,被浮窗遮挡下,是底层的网页信息,那么模拟点击只能点击到最表层的浮窗页面,点不了浮窗遮挡下的底层网页信息。如果不设置模拟点击,无论显示的时候是否能被看到,都能够点击到指定的网页标签节点。


窗口可见

勾上窗口可见,爬虫窗口就会一直置顶,显示在电脑屏幕的最前面,作用是更加逼真的模拟人浏览网页的行为,以避开一些反爬虫手段。因为有些网站会检测当前的浏览行为是不是在置顶窗口里发生的,是的话就回复请求信息,不是的话就拒绝请求信息,所以,设置窗口可见,就能躲过这个监测。


重复次数

对同一个动作对象重复执行的次数,用于只有一个动作对象但是要点击多次的情况。例如,通过连续动作来实现翻页,设置一个点击动作,xpath锁定了网页上的“下一页”按钮,这里就定位到一个,那么爬虫就只点击一次,也就是只能从第一页翻到第二页,想要爬虫继续翻页,就要设置重复次数,在点击一次翻页之后下次还能继续点击翻页。当然,这里仅作为讲解案例,我们希望大家在爬虫路线上定义翻页规则,一方面易于使用,另一方面,有多种翻页方式可选择。


内容表达式

用于提取动作对象的值,适用于点击、双击、悬浮、提交这四个动作。要以定位表达式里的xpath为起点路径,编写定位到动作对象的值的相对xpath填进去,爬虫就会把采到的动作对象的值存储在xml文件的actionvalue字段。

注意:输入和选择动作是默认把对象值记录在xml文件的actionvalue字段中。


合用表达式

当重复次数设置了一个无限大的数值时,爬虫多余的点击就显得浪费时间了,此时,可以在合用表达式里填上xpath,这个xpath的计算结果必须是布尔值,所以要注意选择合适的xpath函数。true值则继续执行动作,false值则终止或者跳过本步动作,这样就能让爬虫可以自动判断停止;而在打码动作中,合用表达式则是用来判断是否重新打码。


输入联想

只存在输入动作的高级设置里,如果网页上的搜索框可以根据关键词自动联想到最热的搜索词,此时,勾上输入联想,爬虫就会自动搜索联想词,如果勾选上输入联想,最好设置额外延时,因为把联想词传递给爬虫还是需要一定时间的。


回退次数

只存在回退动作的高级设置里,回退动作的作用是返回上级网页,而回退次数则是指定了返回多少级以上的网页。参数值默认是1,表示返回上一级网页,填2或以上的数值,就表示返回2级或以上的网页。


上篇文章:《连续打码:破解各种验证码》                           下篇文章:《如何找到合适的连续动作组合》

若有疑问可以集搜客爬虫软件
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

GMT+8, 2024-12-5 06:39