快捷导航
心诚泽霖 初级会员 发表于 2019-11-25 21:07:58 | 显示全部楼层
心诚泽霖 发表于 2019-11-24 19:07
谢谢你,我应该选的是多条网址,2019年的爬取的条数挺多的,之前的都比较少。我再爬取一遍看看

...

还是不对,我先选取的“全部”,爬取出来,2016年1月还是18条,和原来一样
举报 使用道具
wangyong 版主 发表于 2019-11-26 16:27:09 | 显示全部楼层
心诚泽霖 发表于 2019-11-25 21:07
还是不对,我先选取的“全部”,爬取出来,2016年1月还是18条,和原来一样
...

我试了一下能正常翻页,你在爬取的时候在集搜客浏览器里登录微博了吗?

举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-26 22:30:06 | 显示全部楼层
wangyong 发表于 2019-11-26 16:27
我试了一下能正常翻页,你在爬取的时候在集搜客浏览器里登录微博了吗?

...

登陆了的,最近的好像没问题,都有很多条,但是前两年的不全
举报 使用道具
wangyong 版主 发表于 2019-11-27 09:23:20 | 显示全部楼层
心诚泽霖 发表于 2019-11-26 22:30
登陆了的,最近的好像没问题,都有很多条,但是前两年的不全

你把采集少的网址发出来
举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-27 21:58:39 | 显示全部楼层
wangyong 发表于 2019-11-27 09:23
你把采集少的网址发出来

https://s.weibo.com/weibo/%25E4%25BA%258C%25E8%2583%258E?q=%E4%BA%8C%E8%83%8E&xsort=hot&suball=1&timescope=custom:2016-01-01-0:2016-02-01=0&Refer=g

这个只采集到18条,搜索时差不多有500条

举报 使用道具
Fuller 管理员 发表于 2019-11-28 17:35:15 | 显示全部楼层
心诚泽霖 发表于 2019-11-27 21:58
https://s.weibo.com/weibo/%25E4%25BA%258C%25E8%2583%258E?q=%E4%BA%8C%E8%83%8E&xsort=hot&suball=1&t ...

这个网址我测试了,我能采集全。我用的是微博采集工具箱。选择你想采集的时间。我建议你也用微博采集工具箱吧,那里的规则总是有人持续维护,确保可用:https://www.gooseeker.com/land/weibo.html
举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-28 20:31:08 | 显示全部楼层
Fuller 发表于 2019-11-28 17:35
这个网址我测试了,我能采集全。我用的是微博采集工具箱。选择你想采集的时间。我建议你也用微博采集工具 ...

你好,这里可以用自己的网址吗?那里的关键词搜索不能搜索热点微博,或者原创微博什么的
举报 使用道具
Fuller 管理员 发表于 2019-11-28 22:52:51 | 显示全部楼层
心诚泽霖 发表于 2019-11-28 20:31
你好,这里可以用自己的网址吗?那里的关键词搜索不能搜索热点微博,或者原创微博什么的
...

微博工具箱只能输入关键词,选择发微博的时间,没有其他选项。

目前你是自己做的规则还是下载的规则?
举报 使用道具
心诚泽霖 初级会员 发表于 2019-11-29 07:02:22 | 显示全部楼层
Fuller 发表于 2019-11-28 22:52
微博工具箱只能输入关键词,选择发微博的时间,没有其他选项。

目前你是自己做的规则还是下载的规则?

现在是利用微博的高级搜索工具,生成网址,利用网址下载

举报 使用道具
Fuller 管理员 发表于 2019-11-29 15:22:43 | 显示全部楼层
心诚泽霖 发表于 2019-11-29 07:02
现在是利用微博的高级搜索工具,生成网址,利用网址下载

你的规则名字是什么?我让管理员加载测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 关于食品安全的美国联邦法规文件的网络爬虫
  • 怎样更有效率地搜索互联网和整理知识—使用
  • 阿里巴巴外包询价网站用集搜客网络爬虫能采
  • 在限定论域的时候,为什么“任何一个”表示
  • 数理逻辑是讲什么的?

热门用户

GMT+8, 2020-4-1 00:07