集搜客GooSeeker网络爬虫
标题:
微博悬浮窗第二个规则的问题
[打印本页]
作者:
Ketchup
时间:
2015-11-23 21:20
标题:
微博悬浮窗第二个规则的问题
悬浮窗的教程这个
http://www.gooseeker.com/doc/article-139-1.html
我按照教程第一规则第二规则都做好了,这个是第二规则截图。
[attach]389[/attach]
映射都做好了保存好后采集,采集过程中也是一页采完后然后采悬浮窗,可是生成的文件里没有要采集的数据,不知道哪里错了,请教大家。
下面是第二规则采集出来的xml文件内容
[attach]390[/attach]
当我重新打开MS谋数台,重新打开这个规则,先让悬浮窗出来冻结网页,网页结构刷新再后续分析会出错
[attach]391[/attach]
[attach]392[/attach]
请问为什么会出现这个错,怎么解决?
作者:
gooseeker_info
时间:
2015-11-23 23:43
我们在qq里也聊过,当时我建议:给抓取内容设置关键内容,后来看到你在qq里的截图是出现timeout,说明抓取的时候,发现抓取规则不正确。
但是,为什么在MS谋数台上是能采集到内容的?我分析如下:
关键原因可能是没有使用定位标志映射
。
虽然定位标志映射不是必须的,但是,选择适当的定位标志,会让抓取规则的适应性提高很多。比如如下场景:
1,如果不用定位标志映射,MS谋数台会缺省使用@id,这是他自己选择的,可能会不适合,比如,有些id是这样的格式 id='msg_12562',后面那个数字代表一条消息,每条消息都有唯一的数字,那么,针对样例做成的规则就会不适应其他情况
2,在整个xpath中,既有id还有class,如果缺省选择id,那么可能有个class离被抓取节点更近,而且语义更明确
根据截图我对比了一下,你的这个规则没有使用定位标志映射。很可能跟这个有关。定位标志的用法参看:
http://www.gooseeker.com/doc/article-120-1.html
作者:
Ketchup
时间:
2015-11-24 20:24
gooseeker_info 发表于 2015-11-23 23:43
我们在qq里也聊过,当时我建议:给抓取内容设置关键内容,后来看到你在qq里的截图是出现timeout,说明抓取 ...
谢谢,我会仔细再设置看看,感谢回复。
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2