gdzxLyzh 发表于 2016-1-23 21:02
这个问题还不是很明白,线索是不是一个网页上能到达多少网页就是多少线索,总之概念很混乱。。。。
...
xandy 发表于 2016-1-23 21:09
不是指网页数,举个例子,你要采集天猫所有女装的商品详情,首先你建立的第一个规则是抓“女装”关键词的 ...
gdzxLyzh 发表于 2016-1-23 21:22
大致看懂了。我自己再举一反三一下,例如在某论坛里的一个版块,总共100页,每页有20个帖子。
我的目的是 ...
Fuller 发表于 2016-1-23 21:31
第二个和第三个规则应该合成一个规则,在第二个规则中也定义个翻页线索,因为像Discuz这样的论坛,高楼分成 ...
xandy 发表于 2016-1-23 21:30
逻辑是对的,但是第二个规则应该就可以采集帖子的内容了,为什么还要建第三个规则呢? ...
gdzxLyzh 发表于 2016-1-23 21:34
明白! 就是在第二个规则中定义翻页线索,如果是矮楼则不影响,如果是高楼贴,那么规则2也可以顺利抓取, ...
gdzxLyzh 发表于 2016-1-23 21:39
恩恩, 规则1也要定义翻页线索,因为版块有20页。 规则2也要有翻页线索,因为要抓高楼贴。那么再问下主题 ...
Fuller 发表于 2016-1-23 21:52
不要做成一个主题,这两个规则明显是为了两件事
第一个:在板块中翻页抓取所有帖子的列表
第二个:针对每 ...
Fuller 发表于 2016-1-23 21:52
不要做成一个主题,这两个规则明显是为了两件事
第一个:在板块中翻页抓取所有帖子的列表
第二个:针对每 ...
gdzxLyzh 发表于 2016-1-23 21:59
好的。 如果我在页面只需要抓取作者aaa发的帖子,怎么办?
因为用样例复制是把所有结构相同的都抓下来了 ...
gdzxLyzh 发表于 2016-1-23 22:04
还有MS里的逻辑问题:
1、一个主题是用于实现一个功能的,这么描述可对?所以抓取所有帖子列表和 抓取每 ...
beanbing 发表于 2016-10-22 18:02
如果是一个页面网址下面有无数个URL,你怎么知道数字呢?
beanbing 发表于 2016-10-23 08:39
嗯 没有理解,如果你要采集瀑布流的网址,那你线索里(也就是滚屏参数要输入多少呢?) ...
Fuller 发表于 2016-10-23 10:09
瀑布流滚不到底的,滚屏次数就是-1,永远抓不完
beanbing 发表于 2016-10-23 13:40
就是有知道多少才输入?比如楼上说的2000? 那如果不是瀑布流,可以直接输入-1 会有什么影响吗 ...
beanbing 发表于 2016-10-24 10:24
那我就不明白这个今日头条的规则了
beanbing 发表于 2016-10-24 11:13
1.那这样的话 就算是无到底的网页 你也只能设置上一定数量 比如2000次滚屏
2.如果我再MS里设置了,那 ...
beanbing 发表于 2016-10-25 11:32
滚屏是滚动的设置,线索是网页url的数量,如果一个页面中url是2000条 ,就输入4000条,但是为什么我的永远 ...
beanbing 发表于 2016-10-25 11:44
但是我的是滚屏的 ,抓取下来就只有几行数据,这个不对呀
我滚屏参数是4,总次数是4000,速度也相对调慢了 ...
beanbing 发表于 2016-10-25 11:57
滚屏速度也设置为0吗?
HJLing 发表于 2016-10-25 12:00
次数设为0之后就无所谓速度为多少了 因为已经不起作用了
beanbing 发表于 2016-10-25 12:02
不行 ,抓取出来的数据只要几行而已
beanbing 发表于 2016-10-25 14:04
所以是不用设置? 重启了也不行
beanbing 发表于 2016-10-25 14:37
不行 ,还是一样的情况
scraper 发表于 2016-10-25 14:40
我加载你的规则报错了 你运行有报错吗? DS下面的日志窗口有没有什么?
...
beanbing 发表于 2016-10-25 14:44
没有 我弄的是单搜
scraper 发表于 2016-10-25 15:23
我们需要检查一下程序 可能是目前的滚屏机制不适用于这个网站 等程序员测试之后找到原因再修改
...
beanbing 发表于 2016-10-25 15:34
如果不适用的话,是否意味着无法采集,还是有其他方法可以采集呢
(弄了好多天的= =)
...
beanbing 发表于 2016-10-26 09:22
可以弱弱问一下什么时候能弄好呢?
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) | Powered by Discuz! X3.2 |