集搜客GooSeeker网络爬虫

标题: 【新浪微博搜索_找人列表】#GooSeeker数据DIY# [打印本页]

作者: scraper    时间: 2017-2-28 10:57
标题: 【新浪微博搜索_找人列表】#GooSeeker数据DIY#

【启动采集前的配置】

【运行方法】— 详见数据DIY图文教程


【常见问题】— 欢迎跟帖留言

作者: laughingduan    时间: 2017-4-28 11:30
怎么采集下来的信息不完整
作者: shenzhenwan10    时间: 2017-4-28 12:12
laughingduan 发表于 2017-4-28 11:30
怎么采集下来的信息不完整

我刚测试了一下, 页面上显示出来的属性都采集下来了
你说的不完整具体指什么?


作者: Fuller    时间: 2017-4-28 12:17
laughingduan 发表于 2017-4-28 11:30
怎么采集下来的信息不完整

我们正在检查问题,好像是翻页不成功

作者: laughingduan    时间: 2017-4-28 14:23
shenzhenwan10 发表于 2017-4-28 12:12
我刚测试了一下, 页面上显示出来的属性都采集下来了
你说的不完整具体指什么?

有些账号名称采集下来是空的~

WechatIMG412.jpeg (96.74 KB, 下载次数: 3759)

WechatIMG412.jpeg

作者: HJLing    时间: 2017-4-28 14:36
laughingduan 发表于 2017-4-28 14:23
有些账号名称采集下来是空的~

之前的规则有点问题
现在改好了
你重新添加任务再采集试试


作者: laughingduan    时间: 2017-4-28 14:44
HJLing 发表于 2017-4-28 14:36
之前的规则有点问题
现在改好了
你重新添加任务再采集试试

谢谢亲



作者: laughingduan    时间: 2017-4-28 15:48
laughingduan 发表于 2017-4-28 14:44
谢谢亲

你好好像用户名还是抓取不全~

WechatIMG413.jpeg (57.97 KB, 下载次数: 3717)

WechatIMG413.jpeg

作者: HJLing    时间: 2017-4-28 15:51
laughingduan 发表于 2017-4-28 15:48
你好好像用户名还是抓取不全~

我在数据库查到数据是全的
你可以先导出一部分看看


作者: HJLing    时间: 2017-4-28 15:57
laughingduan 发表于 2017-4-28 15:48
你好好像用户名还是抓取不全~


你这个任务建立的时间是14:24
是在我回复你之前就建立的吧


作者: laughingduan    时间: 2017-4-28 17:02
HJLing 发表于 2017-4-28 15:57
你这个任务建立的时间是14:24
是在我回复你之前就建立的吧

谢谢你,我再试试~么么哒


作者: HJLing    时间: 2017-4-28 17:16
laughingduan 发表于 2017-4-28 17:02
谢谢你,我再试试~么么哒

还有
因为你第一二次添加了任务并且采集了数据 但是没有全部导出
所以如果你现在直接添加第三次任务 这样会把全部未导出的数据都导出了 包括第一二次的数据

所以你要先去会员中心把之前不要的那些任务都删掉
再去新建任务来采集
这样导出的数据就会是最后一次任务的数据了


作者: laughingduan    时间: 2017-4-28 17:17
HJLing 发表于 2017-4-28 17:16
还有
因为你第一二次添加了任务并且采集了数据 但是没有全部导出
所以如果你现在直接添加第三次任务 这样 ...

原来是这样,太感谢你了~

作者: laughingduan    时间: 2017-10-15 12:44
请问一下为什么选择了采集一百页,但是只有40条数据,是没有登录的原因么?

作者: Fuller    时间: 2017-10-15 15:53
laughingduan 发表于 2017-10-15 12:44
请问一下为什么选择了采集一百页,但是只有40条数据,是没有登录的原因么?
...

微博一定要先登录后采集

作者: laughingduan    时间: 2018-6-25 10:45
为啥使用以后一直显示待采集状态,已经两天了~
作者: Fuller    时间: 2018-6-25 11:14
laughingduan 发表于 2018-6-25 10:45
为啥使用以后一直显示待采集状态,已经两天了~

1. 检查一下打数机账号是否与会员中心账号一致?



2. 把服务器设置成https,具体的设置操作,可以参看https://www.gooseeker.com/doc/thread-10915-1-1.html



作者: laughingduan    时间: 2018-6-25 12:43
Fuller 发表于 2018-6-25 11:14
1. 检查一下打数机账号是否与会员中心账号一致?

谢谢~

作者: 夜雨    时间: 2020-1-26 00:58
您好,请问只显示50页怎么办
作者: Fuller    时间: 2020-1-26 11:05
夜雨 发表于 2020-1-26 00:58
您好,请问只显示50页怎么办

微博做了限制,只能采集50页。高级搜索里面有其他选项,比如,按照地区等等,用上这些选项,可以让搜索结果少于50页,把各种选项的搜索结果汇总在一起,就可以了

作者: 夜雨    时间: 2020-1-31 02:34
Fuller 发表于 2020-1-26 11:05
微博做了限制,只能采集50页。高级搜索里面有其他选项,比如,按照地区等等,用上这些选项,可以让搜索结 ...

好的,感谢~~

作者: jwinwhusim    时间: 2021-3-26 19:39
为什么关键词找人只能采集到的20条数据
作者: 内容分析应用    时间: 2021-3-26 19:47
jwinwhusim 发表于 2021-3-26 19:39
为什么关键词找人只能采集到的20条数据

采集前, 需要现在爬虫软件先登录微博。
如果不登录, 采集的时候就只显示第1页,登录后就可以翻页





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2