快捷导航
心诚泽霖 初级会员 发表于 2019-12-1 07:27:43 | 显示全部楼层
Fuller 发表于 2019-11-30 22:02
你使用的这个快捷采集是我们做好的规则共享给大家的。竟然有这么多失败的网址,你把一两条失败网址发出来 ...

https://s.weibo.com/weibo/%25E7% ... 1-03-20&Refer=g
https://s.weibo.com/weibo/%25E7% ... 1-04-20&Refer=g
这两个都有错的

附件是1年的网址,我一次批量放进去的

2011website.zip

12.75 KB, 下载次数: 0

举报 使用道具
Fuller 管理员 发表于 2019-12-1 09:45:53 | 显示全部楼层
心诚泽霖 发表于 2019-12-1 07:27
https://s.weibo.com/weibo/%25E7%2594%259F%25E8%2582%25B2?q=%E7%94%9F%E8%82%B2&scope=ori&suball=1&t ...

我采集测试了,发现都能成功,但是有时候显示出来只有一页,有时候有三页。这种页数不确定的问题解决不了。 为了确保采集成功,DS打数机的窗口要确保是最大的,不要把窗口最小化成屏幕底部的任务条上的图标。窗口上面可以覆盖其他窗口,不影响其他工作,但是不能最小化。微博网页在显示时,如果发现窗口不够显示内容的就不会加载内容
举报 使用道具
心诚泽霖 初级会员 发表于 2019-12-1 19:04:33 | 显示全部楼层
Fuller 发表于 2019-12-1 09:45
我采集测试了,发现都能成功,但是有时候显示出来只有一页,有时候有三页。这种页数不确定的问题解决不了 ...

好的,谢谢你的提醒
举报 使用道具
心诚泽霖 初级会员 发表于 2019-12-2 22:10:14 | 显示全部楼层
Fuller 发表于 2019-12-1 09:45
我采集测试了,发现都能成功,但是有时候显示出来只有一页,有时候有三页。这种页数不确定的问题解决不了 ...

你好,再请教你一个问题,一个小时就超过50页的微博要怎么爬取?
举报 使用道具
Fuller 管理员 发表于 2019-12-3 09:14:18 | 显示全部楼层
心诚泽霖 发表于 2019-12-2 22:10
你好,再请教你一个问题,一个小时就超过50页的微博要怎么爬取?

这种爬不到更多了,虽然可以尝试在高级搜索那里加一些搜索条件,比如,按照地区分,但是我测试过,分条件查到的内容有漏的,不过也能补充上一些
举报 使用道具
心诚泽霖 初级会员 发表于 2019-12-3 22:43:59 | 显示全部楼层
Fuller 发表于 2019-12-3 09:14
这种爬不到更多了,虽然可以尝试在高级搜索那里加一些搜索条件,比如,按照地区分,但是我测试过,分条件 ...

好的,谢谢您,用微博关键词工具搜出来的,为什么有很多“已停止”,这种是什么问题?
11.PNG
举报 使用道具
Fuller 管理员 发表于 2019-12-4 09:41:47 | 显示全部楼层
心诚泽霖 发表于 2019-12-3 22:43
好的,谢谢您,用微博关键词工具搜出来的,为什么有很多“已停止”,这种是什么问题?
...

已停止的一般是没有完全成功完成的,比如,翻页到一半,网页加载不出来了,爬虫判断得到的结论可能会是:规则不适合这个网页。这样就断了。这种就是失败状态,最后归为“已停止”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在限定论域的时候,为什么“任何一个”表示
  • 数理逻辑是讲什么的?
  • 内容分析法中的抽样
  • 豆瓣电影的情感分析
  • 一本在线图书——社交网络分析介绍

热门用户

GMT+8, 2020-2-26 17:04