集搜客GooSeeker网络爬虫

标题: 层级抓取问题 [打印本页]

作者: 懵懵的girl    时间: 2016-12-22 17:03
标题: 层级抓取问题
层级抓取设置的第二级抓取内容只有三个,但最后爬数据显示的是整个二级页面的内容,为什么啊

[attach]3934[/attach]   


作者: ym    时间: 2016-12-22 17:10
应该是网页结构很规范,你做的映射得到的规则,刚好满足了样例复制的条件,所以就自动把所有相同结构的信息都抓下来了。如果只想要第一条信息的话,那就修改整理箱的“定位”按钮,改为“绝对定位”。
作者: ym    时间: 2016-12-22 17:11
如果不是上面说的情况,那你就把主题名发出来,我分析一下
作者: 懵懵的girl    时间: 2016-12-23 09:03
我是想要利用层级抓取的功能,通过抓取第一级网页的所以链接,从而得到每个链接里的部分内容而不是全部内容。定位标志是指抓取第一条链接,还是每条链接里面的第一条内容?
作者: Fuller    时间: 2016-12-23 09:16
懵懵的girl 发表于 2016-12-23 09:03
我是想要利用层级抓取的功能,通过抓取第一级网页的所以链接,从而得到每个链接里的部分内容而不是全部内容 ...

假设二级产生了100个线索,你是只想抓取其中30个线索的内容?还是这100个线索都抓,但是在每个网页上抓一部分内容?

作者: 懵懵的girl    时间: 2016-12-23 09:36
是想抓100个线索,每个页面抓几个信息
作者: Fuller    时间: 2016-12-23 09:38
懵懵的girl 发表于 2016-12-23 09:36
是想抓100个线索,每个页面抓几个信息

那就是第二级规则怎么做的问题,可以限定一下抓取返回

作者: Fuller    时间: 2016-12-23 09:41
如果你想限定范围的话,可以参照《样例复制如何限定范围搜索》,建立一个嵌套的整理箱,整理箱顶层节点用于限定范围,第二层容器节点用于做样例复制

作者: 懵懵的girl    时间: 2016-12-23 10:07
抓取返回应该怎样设置啊
作者: 懵懵的girl    时间: 2016-12-23 10:17
懵懵的girl 发表于 2016-12-23 10:07
抓取返回应该怎样设置啊

不好意思,刚刚去查询了一下结果,就是我需要的几个信息,解决了。





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2