1311#
Anaelle 新手上路 发表于 2021-12-9 21:17:54 | 只看该作者
请问采集数据不全是什么情况呢?我设置了起始时间是2021-04-01,结束时间是2021-06-01,但是打包的数据只有06-01的,甚至只有16:00-23:59的数据
举报 使用道具
1312#
Anaelle 新手上路 发表于 2021-12-10 03:29:57 | 只看该作者
Anaelle 发表于 2021-12-9 21:17
请问采集数据不全是什么情况呢?我设置了起始时间是2021-04-01,结束时间是2021-06-01,但是打包的数据只有 ...

看了一下日志好像是因为“因设置了限制翻页数:50,翻页已中断”,怎么才能取消这个限制呢?
举报 使用道具
1313#
Fuller 管理员 发表于 2021-12-10 09:22:45 | 只看该作者
Anaelle 发表于 2021-12-9 21:17
请问采集数据不全是什么情况呢?我设置了起始时间是2021-04-01,结束时间是2021-06-01,但是打包的数据只有 ...

如果微博特别热,那么要设置细分时间段,最小一小时。如果一个小时内的微博内容依然超过50页,还可以选择其他细分选项,但是,其他细分选项不是很准确,根据经验,可以先纯粹按照时间细分,然后再采集一遍,按照其他条件加上时间细分,最后,把两次采集的内容合并一下
举报 使用道具
1314#
18521345326 新手上路 发表于 2021-12-24 12:02:14 | 只看该作者
您好,请问我抓取到的内容包括展开原文c,是因为最小化后台的缘故吗?
举报 使用道具
1315#
wangyong 版主 发表于 2021-12-24 13:46:04 | 只看该作者
18521345326 发表于 2021-12-24 12:02
您好,请问我抓取到的内容包括展开原文c,是因为最小化后台的缘故吗?

集搜客微博采集工具箱中通过微博关键词搜索结果采集工具微博博主主页采集工具或者其他微博工具采集微博数据时会采集下带有“展开全文”的数据

在采集结果中通过Excel将含有“展开全文”的数据筛选出来后


将其对应的“博文独立网址”添到微博博文展开全部采集中就可以将“展开全文”后的数据完整采集下来


数据展示:


举报 使用道具
1316#
mianmian314 初级会员 发表于 2022-1-8 17:41:10 | 只看该作者
您好,抓取微博评论的时候,显示抓取“失败(超时),抓取规则不合适或者超时时间设置太短”是什么原因呢?该如何解决呢?
举报 使用道具
1317#
Fuller 管理员 发表于 2022-1-8 22:45:12 | 只看该作者
mianmian314 发表于 2022-1-8 17:41
您好,抓取微博评论的时候,显示抓取“失败(超时),抓取规则不合适或者超时时间设置太短”是什么原因呢? ...

你要采集的网址是什么?发出来我看看。我估计你的网址不对
举报 使用道具
1318#
mianmian314 初级会员 发表于 2022-1-12 15:25:36 | 只看该作者
Fuller 发表于 2022-1-8 22:45
你要采集的网址是什么?发出来我看看。我估计你的网址不对

嗯嗯,解决了解决了,靴靴!
举报 使用道具
1319#
l947512109 新手上路 发表于 2022-1-15 15:42:51 | 只看该作者
为什么两千多条博文只采集到了七十多条呢?如果只选其中一个月,又会显示1条或0条数据……
举报 使用道具
1320#
Fuller 管理员 发表于 2022-1-15 16:13:34 | 只看该作者
l947512109 发表于 2022-1-15 15:42
为什么两千多条博文只采集到了七十多条呢?如果只选其中一个月,又会显示1条或0条数据…… ...

采集哪个网址?发出来看看。是关键词搜索还是博主主页?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 06:12