目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
连续动作的合用表达式
1,什么是合用表达式 从《连续动作的重复次数》一文可以看出,针对网页上的一个位置可以做很多次相同动作,如果重复次数设置得过大
连续动作的合用表达式怎么用?
[b]一、作用[/b] 根据布尔类型结果的xpath函数式来判断是否停止动作的执行。[align=center][attach]4606[/attach] [/align] [b]二、怎么用[/b]当重复次数设置了一个无限大的数值时,爬虫多余的点击就会浪费时间,此时,可以在合用表达式里填上xpath,这个XPath的计算结果必须是布尔值,所以要注意选择合适的XPath函数。true值则继续执行动作,false值则终止或者跳过本步动作,这样就能让爬虫可以自动判断停止;而在打码动作中,合用表达式就是用来判断是否重新打码
求助:定位表达式
,'taobao')] 这个定位表达式对不对
正则表达式抽风了
测试用例:
ISSN:0254-0037
要抓取:ISSN:0254-0037 设计表达式表达式在正则在线测试试过了没有问题,哪里出问题了?如何输入定位表达式?
样本地址:http://china.nba.com/statistics/teamstats/ 需要输出每一年球队的数据 有提交按钮 [attach]2247[/attach]
感觉合用表达式应该没问题,但连续动作的停止判定总是无效
感觉合用表达式应该没问题,但连续动作的停止判定总是无效。我的主题名式“知乎回答页评论抓取”,想要通过连续动作实现翻页,翻到最后一页就停止。
连续动作的内容表达式有什么用,怎么填?
[b]一、作用[/b] 用于提取动作对象的值,适用于点击、双击、悬浮、提交这四个动作。attach]4605[/attach] [/align][b]二、填写相对xpath[/b] 填写的xpath是以定位表达式的
跪求tr的索引的 xpath表达式
跪求tr的索引的 xpath表达式 ,是这样的,这个#text里面数据总是抓不到,有大神能指点下吗:handshake
定位表达式在什么地方输入?
定位表达式在什么地方输入?有什么作用?
TEXT文本抓取方法/表达式问题
[postbg]bg9.png[/postbg]账号 smallG 规则:FARM1;FARM2 抓取网址:http://e-catalogue.uci-fram.com.cn/fram/Index.aspx [attach]5986[/attach][attach]5987[/attach] [attach]5984[/attach] 目前抓取“5”处做的样例复制,导致数据重复问题; [attach]5985[/attach] 如何通过“”4“”处每点击一次搜索;爬取“5”处的每一行text内容后再爬取“6”处的text内容;
连续动作的定位表达式怎么找
[img=484,328]http://www.jisouke.com/doc/data/attachment/forum/201605/30/163658z6qsxzgqfutshbhc.png[/img][size=16px] [/size]
连续动作的定位表达式怎么找
[attach]898[/attach]
点击动作里的内容表达式问题
网址: [url]http://market.vin114.net/zfcaf/level/goToIndex?openid=ot7m1s8-aw9rQvs9M8kXuUEAUchk&nickname=%E9%83%91%E5%AE%87&headimg=http://thirdwx.qlogo.cn/mmopen/vi_32/DYAIOgq83eocqsEAnRhZJYktmOfFiabX5OBmKTeLNZibb2BJqHHfHZJcq5FD3xTocbHwFrFssXAPqBDKZ936icKrw/132&sign=3c946c190af40c3adb1582169a9ffcf1[/url] 帐号:npcayu [attach]9928[/attach] 动作是点击这一行, 顺带抓出这一行的4个text,这一行是UL ,4个TEXT在下面4个LI下的4个P下。 [attach]9929[/attach]
关于过滤尖括号的正则表达式
正则表达式应该怎样写?只过滤尖括号就行了
连续动作定位表达式是否正确
规则一:广州本田-1 规则二:广州本田-2 现在设置的规则一中的两个连续动作定位表达式如图所示,执行结果只能采集到上海地区