集搜客GooSeeker网络爬虫

标题: 微博采集 [打印本页]

作者: lucky半杯    时间: 2017-5-3 13:05
标题: 微博采集
我采集输入一条例如#白百何#后,出来的数据的中用户名,评论,点赞,等信息有现成的吗?我做的规则为什么每个都出来2次重复的。
规则名:简单微博采集


作者: HJLing    时间: 2017-5-3 14:34
[attach]6396[/attach]
加载你的规则样例复制那里报错了
换成定位标志映射没问题
你再去试试看


作者: lucky半杯    时间: 2017-5-3 15:13
HJLing 发表于 2017-5-3 14:34
加载你的规则样例复制那里报错了
换成定位标志映射没问题
你再去试试看

那我  翻页可以成功,但是不能抓第二页数据

作者: lucky半杯    时间: 2017-5-3 15:15
HJLing 发表于 2017-5-3 14:34
加载你的规则样例复制那里报错了
换成定位标志映射没问题
你再去试试看

而且我这个不知道为什么,直接将第一页全部抓取,我明明只映射第一个样本。而且微博后几个样本的结构不同,存在于EM中的DIV中


作者: HJLing    时间: 2017-5-3 15:22
lucky半杯 发表于 2017-5-3 15:15
而且我这个不知道为什么,直接将第一页全部抓取,我明明只映射第一个样本。而且微博后几个样本的结构不同 ...

[attach]6400[/attach]
为什么翻页不是用当前主题


作者: lucky半杯    时间: 2017-5-3 16:13
HJLing 发表于 2017-5-3 15:22
为什么翻页不是用当前主题

这个我后来修改了,感谢。问下,为什么我用你们的微薄修改工具,过一会就说采集完成,明明有那么多条

作者: HJLing    时间: 2017-5-3 16:27
lucky半杯 发表于 2017-5-3 16:13
这个我后来修改了,感谢。问下,为什么我用你们的微薄修改工具,过一会就说采集完成,明明有那么多条
...

看一下微博有没有登录
浏览器能不能访问你要采集的页面






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2