31#
心诚泽霖 初级会员 发表于 2019-11-30 09:21:50 | 只看该作者
Fuller 发表于 2019-11-29 23:38
也可以从断掉的那里开始爬,因为网址中含有页码,把断掉的网址构造出来

好的,谢谢你,是不是我一旦关掉DS窗口就没法看哪些是断掉的了?
还有,我是不是只能按下面链接1.1这个来看哪里断掉了?

举报 使用道具
32#
Fuller 管理员 发表于 2019-11-30 10:12:34 | 只看该作者
心诚泽霖 发表于 2019-11-30 09:21
好的,谢谢你,是不是我一旦关掉DS窗口就没法看哪些是断掉的了?
还有,我是不是只能按下面链接1.1这个来 ...

快捷采集是可以看线索状态的,但是,这个情况看不了,因为即使没有出现你要的内容,也会出现今天的内容,所以总是能采集成功。这个需要导出数据以后,根据发布时间排序,看看哪天数据没有或者特别少,就人工检查一下。

下图是查看线索状态的方法


举报 使用道具
33#
心诚泽霖 初级会员 发表于 2019-11-30 10:19:21 | 只看该作者
Fuller 发表于 2019-11-30 10:12
快捷采集是可以看线索状态的,但是,这个情况看不了,因为即使没有出现你要的内容,也会出现今天的内容, ...

这个抓取错误的有办法批量导出吗?网址太多了,一个一个看确实很麻烦
举报 使用道具
34#
Fuller 管理员 发表于 2019-11-30 10:30:19 | 只看该作者
心诚泽霖 发表于 2019-11-30 10:19
这个抓取错误的有办法批量导出吗?网址太多了,一个一个看确实很麻烦

目前还没有导出功能
举报 使用道具
35#
心诚泽霖 初级会员 发表于 2019-11-30 11:18:50 | 只看该作者
Fuller 发表于 2019-11-30 10:30
目前还没有导出功能

好的,非常感谢!
还想问个问题,想我这种爬取  原创+关键词 微博,处理快捷采集的“微博关键词搜索结果采集”工具外,你们还有什么工具方便处理这种需求吗?

举报 使用道具
36#
Fuller 管理员 发表于 2019-11-30 15:54:37 | 只看该作者
心诚泽霖 发表于 2019-11-30 11:18
好的,非常感谢!
还想问个问题,想我这种爬取  原创+关键词 微博,处理快捷采集的“微博关键词搜索结果 ...

通常不用“原创”这个筛选条件,而是把所有的相关微博都采集下来,然后过滤一下,凡是转发别人的就不要
举报 使用道具
37#
心诚泽霖 初级会员 发表于 2019-11-30 17:10:14 | 只看该作者
Fuller 发表于 2019-11-30 15:54
通常不用“原创”这个筛选条件,而是把所有的相关微博都采集下来,然后过滤一下,凡是转发别人的就不要
...

之前发现所有微博太多了,爬取速度太慢,所以想只爬取原创微博

再请教个问题,对于那种抓取出错的网址,我想先比较下爬取的微博数量与实际的微博数量是否一致,你们有没有工具可以直接看对应网址有多少条微博?


11.PNG (67.89 KB, 下载次数: 733)

11.PNG
举报 使用道具
38#
Fuller 管理员 发表于 2019-11-30 20:02:59 | 只看该作者
心诚泽霖 发表于 2019-11-30 17:10
之前发现所有微博太多了,爬取速度太慢,所以想只爬取原创微博

再请教个问题,对于那种抓取出错的网址, ...

你的这些网址,每一个是采集单页还是要翻页?失败比例太高了,不太正常。你的网络速度怎么样?用集搜客网络爬虫登录了微博吗?

要知道每一条网址会采集到多少条数据,那要做一个规则,采集下面的翻页页码,比如,有的有11页,有的有5页,根据这个页码数量能估算出来一个网址有多少条微博。

我测试发现,勾上“原创”的话,微博的速度慢了很多,还不稳定
举报 使用道具
39#
心诚泽霖 初级会员 发表于 2019-11-30 20:41:16 | 只看该作者
Fuller 发表于 2019-11-30 20:02
你的这些网址,每一个是采集单页还是要翻页?失败比例太高了,不太正常。你的网络速度怎么样?用集搜客网 ...

基本上都有翻页的,用集搜客爬取之前我都会登陆微博的。我的宽带速度还可以啊,200M的宽带,非晚上高峰期测速也没太大问题。有过几次集搜客软件直接无响应,没有解决方案。

具体所有页有几条微博,这个可以用规则实现吗?还没用过你们的规则,有基本介绍吗?

不勾原创的话,数据确实太多,最少多一个数量级。不过选“原创”的话,爬取错误太多,后续还不知道怎么处理。不过我也注意到有些抓取错误的网址,爬取微博数量好像也没问题。

11.PNG (247.84 KB, 下载次数: 713)

11.PNG
举报 使用道具
40#
Fuller 管理员 发表于 2019-11-30 22:02:51 | 只看该作者
心诚泽霖 发表于 2019-11-30 20:41
基本上都有翻页的,用集搜客爬取之前我都会登陆微博的。我的宽带速度还可以啊,200M的宽带,非晚上高峰期 ...

你使用的这个快捷采集是我们做好的规则共享给大家的。竟然有这么多失败的网址,你把一两条失败网址发出来,我测试一下看看有什么问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 17:31