快捷导航
心诚泽霖 初级会员 发表于 2019-11-29 20:06:43 | 显示全部楼层
Fuller 发表于 2019-11-29 15:22
你的规则名字是什么?我让管理员加载测试一下

规则?我现在是搜理念包含“生育”的原创微博

举报 使用道具
Fuller 管理员 发表于 2019-11-29 21:26:59 | 显示全部楼层
心诚泽霖 发表于 2019-11-23 20:53
https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%9 ...

你确定用的是这个快捷采集工具? https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97%A8%E7%BD%91%E7%AB%99&web=%E6%96%B0%E6%B5%AA%E5%BE%AE%E5%8D%9A&rule=%20TA%E7%82%B9%E8%B5%9E%E8%BF%87%E7%9A%84%E5%BE%AE%E5%8D%9A%E6%95%B0%E6%8D%AE


这个工具是用来采集点赞的,不是采集搜索结果的。
举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-29 21:56:30 | 显示全部楼层
Fuller 发表于 2019-11-29 21:26
你确定用的是这个快捷采集工具? https://www.gooseeker.com/res/datadiy.html?category=%E7%83%AD%E9%97 ...

https://www.gooseeker.com/res/da ... C%E9%87%87%E9%9B%86
11.PNG
举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-29 21:57:21 | 显示全部楼层
心诚泽霖 发表于 2019-11-29 21:56
https://www.gooseeker.com/res/datadiy.html?category=%E7%A4%BE%E4%BA%A4&web=%E6%96%B0%E6%B5%AA%E5%B ...

不好意思,之前不知道这个可以回复截图的

举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-29 21:59:38 | 显示全部楼层
心诚泽霖 发表于 2019-11-29 21:57
不好意思,之前不知道这个可以回复截图的

我的网址是这样生成的,因为最近几年比较多,所以我拆成了4个小时一个网址
22.PNG
举报 使用道具
Fuller 管理员 发表于 2019-11-29 22:15:39 | 显示全部楼层
心诚泽霖 发表于 2019-11-29 21:59
我的网址是这样生成的,因为最近几年比较多,所以我拆成了4个小时一个网址
...

根据你的截图,我设置了相同的搜索条件,得到这个网址:https://s.weibo.com/weibo/%25E4% ... 0-01-01&Refer=g
我看到总共有11个分页。我现在采集一下试试。

在快捷采集上要设置页数,因为有11页,所以,我设置了20
页数20191129221511.png
举报 使用道具
Fuller 管理员 发表于 2019-11-29 22:20:33 | 显示全部楼层
我发现专门搜索原创微博的话,微博不稳定,有时候会出现下面的提示,但是,刷新几次页面就又会把内容显示出来。一旦遇到下面的提示,就无法继续翻页了

原创20191129221843.png
举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-29 22:47:26 | 显示全部楼层
Fuller 发表于 2019-11-29 22:20
我发现专门搜索原创微博的话,微博不稳定,有时候会出现下面的提示,但是,刷新几次页面就又会把内容显示出 ...

非常感谢你的耐心解答,缺失数据难道是因为这个原因?
我爬2009年的数据,发现很多今天的数据,我以为是某个网址中没有内容的时候会自动搜几条今天的

那么我想爬取热点微博或者原创微博,你们这里有什么好的方案吗?
11.PNG
举报 使用道具
Fuller 管理员 发表于 2019-11-29 23:37:30 | 显示全部楼层
心诚泽霖 发表于 2019-11-29 22:47
非常感谢你的耐心解答,缺失数据难道是因为这个原因?
我爬2009年的数据,发现很多今天的数据,我以为是 ...

网站不稳定很难处理。要多采集几遍。可以把每个分页的网址构造出来,交给爬虫去爬,如果只爬到今天的,说明没有显示出来内容,让爬虫再去爬一遍。

爬很多遍以后,应该都能爬全。就是要很费事
举报 使用道具
Fuller 管理员 发表于 2019-11-29 23:38:41 | 显示全部楼层
也可以从断掉的那里开始爬,因为网址中含有页码,把断掉的网址构造出来
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何使用集搜客分词平台做社会网络图分析?
  • 关于食品安全的美国联邦法规文件的网络爬虫
  • 怎样更有效率地搜索互联网和整理知识—使用
  • 阿里巴巴外包询价网站用集搜客网络爬虫能采
  • 在限定论域的时候,为什么“任何一个”表示

热门用户

GMT+8, 2020-5-30 09:36