集搜客GooSeeker网络爬虫

标题: 线索走不下去 [打印本页]

作者: zhuohui1987    时间: 2017-2-4 00:38
标题: 线索走不下去
主题:安溪项目*

主题:安溪项目1的翻页失败,  麻烦帮我看一下安溪项目1  安溪项目2  安溪项目3  的衔接有问题啊

作者: Fuller    时间: 2017-2-4 10:03
生成的翻页规则是
  1. //*[@class='textDiv']/a[count(./span/text())>0 and count(following-sibling::a[position()=1]/strong/text())>0 and string-length(./span/text())>0]
复制代码
无法区分当前位置和下一位置,理想的是
  1. //*[@class='textDiv']/a[count(.//*[@class='STYLE15']/text())>0 and count(following-sibling::a[position()=1]/strong/text())>0 and string-length(.//*[@class='STYLE15']/text())>0]
复制代码

这是程序的处理能力还不够。春节期间,我们把爬虫软件做了升级,这个问题就解决了,新版本周二发布






作者: Fuller    时间: 2017-2-4 10:53
翻页可以用那个“下一页”橙色按钮
作者: zhuohui1987    时间: 2017-2-4 23:37
Fuller 发表于 2017-2-4 10:53
翻页可以用那个“下一页”橙色按钮

翻页可以用那个“下一页”橙色按钮  还是走不下去  您看一下吧

作者: scraper    时间: 2017-2-5 08:34
zhuohui1987 发表于 2017-2-4 23:37
翻页可以用那个“下一页”橙色按钮  还是走不下去  您看一下吧

安溪项目1里的连续动作,你定义的是“悬浮”,是不是弄错了?


作者: zhuohui1987    时间: 2017-2-8 19:15
Fuller 发表于 2017-2-4 10:03
生成的翻页规则是无法区分当前位置和下一位置,理想的是
这是程序的处理能力还不够。春节期间,我们把爬虫 ...

已经是周二,下一页还是走不下去,看一下

作者: Fuller    时间: 2017-2-8 21:38
zhuohui1987 发表于 2017-2-8 19:15
已经是周二,下一页还是走不下去,看一下

1,新版本8.1.3在周二已经发布了,你只需重新下载就行。但是,你现在用的是记号线索,升级这个版本的必要性不大。
2,规则一,翻页规则不太合适,会影响规则的适应性。
[attach]4932[/attach]
你用了红框的TD做线索的定位映射,这个TD就是下一页按钮。通常线索的定位映射要划定一个翻页区,应该是蓝框的那个TR,你划的这个区域太小,观察上图红框中生成的规则,对比我用TR做定位映射生成的规则
  1. //*[@class='main']/table[position()=2]/tbody/tr//a[.//@src="/axjsj_web/dynamic/img/buton03.gif"]
复制代码
如果你理解XPath的语法的话,就能发现区别,后者没有明确规定第三个TD就是翻页按钮,没有明确规定就增加了灵活性。
3,影响失败的最关键问题是规则一的连续动作。执行点击以后进入到了详情页进入规则二,规则二又点击进入规则三,而规则三没有定义,连续动作不可能执行

4,规则二的点击动作,你勾选了飞掠模式,而实际上是在现有窗口加载新网页,不应该用飞掠模式

5,假设 规则一 -〉 二 -〉 三 顺利执行完了,你现在所处的网页是规则三的网页,连续动作做完后会开始规则一的翻页,你在这个网页上根本翻不了页




作者: zhuohui1987    时间: 2017-2-9 11:30
1.规则一又点击进入规则二,连续动作不可能执行,这个快要怎么去?
2.一直显示无法定位,要节点
作者: zhuohui1987    时间: 2017-2-9 11:30
zhuohui1987 发表于 2017-2-9 11:30
1.规则一又点击进入规则二,连续动作不可能执行,这个快要怎么去?
2.一直显示无法定位,要节点 ...

安溪项目1

作者: zhuohui1987    时间: 2017-2-9 11:34
1.规则一又点击进入规则二,连续动作不可能执行,这个要怎么走?
作者: ym    时间: 2017-2-9 12:02
本帖最后由 ym 于 2017-2-9 12:03 编辑
zhuohui1987 发表于 2017-2-9 11:34
1.规则一又点击进入规则二,连续动作不可能执行,这个要怎么走?

麻烦你看懂连续动作再来做,否则你也看不懂要改啥,问题太多了
1、连续动作的目标主题请填下一级规则
2、你是要点进去每一个项目的话,只要做一个点击动作,自动获取的xpath不适用,只能定位到第一个项目名称,所以定位表达式要自己写,要能够定位到当前页面上的每个项目名称
3、点进入项目详情页面后,第二级规则还要设置返回上级页面的回退动作,这样才能循环
上面3点是目前发现的问题,其他问题要你完成后测试才能再做调整

连续动作教程http://www.gooseeker.com/tuto/tutorial.html






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2