几个月没采集,发现微博旧版采集无法使用了,现在如要采集博主固定时间段的内容,怎么设置?新版瀑布流模式选择搜索时间段,网址一直不变的,无法采集啊
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2023-3-13 14:13

Fuller 管理员 发表于 2023-2-19 16:44:11 | 显示全部楼层
新版只有在关键词搜索那里可以设置时间范围,在博主主页那里不能设置时间范围,只能从头采集到尾
举报 使用道具
robingson 金牌会员 发表于 2023-2-19 18:22:37 | 显示全部楼层
Fuller 发表于 2023-2-19 16:44
新版只有在关键词搜索那里可以设置时间范围,在博主主页那里不能设置时间范围,只能从头采集到尾 ...

那就是只能手动终止?
举报 使用道具
Fuller 管理员 发表于 2023-2-20 09:03:37 | 显示全部楼层
robingson 发表于 2023-2-19 18:22
那就是只能手动终止?

对,采集的时候,可以观察爬虫窗口中的内容,时间采集够了就收工停止
举报 使用道具
maomao 论坛元老 发表于 2023-2-20 16:28:53 | 显示全部楼层
微博cn端的博主主页是分页的。可以用cn端的快捷工具采集
而且cn端每一页都是独立的链接,类似https://weibo.cn/2803301701?page=2
可以根据时间,找到某一页的链接,然后设定要采集的页数。这样就设定了采集某一时间段的博主博文。
举报 使用道具
fan1119 初级会员 发表于 2023-3-8 15:50:33 | 显示全部楼层
maomao 发表于 2023-2-20 16:28
微博cn端的博主主页是分页的。可以用cn端的快捷工具采集。
而且cn端每一页都是独立的链接,类似https://wei ...

image.jpg
用第二页的链接采集的数据并没有博文相关内容,这是什么原因导致的
举报 使用道具
Fuller 管理员 发表于 2023-3-8 16:00:39 | 显示全部楼层
fan1119 发表于 2023-3-8 15:50
用第二页的链接采集的数据并没有博文相关内容,这是什么原因导致的

添加的链接什么?是添加到博主主页数据采集_cn端?
举报 使用道具
fan1119 初级会员 发表于 2023-3-8 17:53:23 | 显示全部楼层
Fuller 发表于 2023-3-8 16:00
添加的链接什么?是添加到博主主页数据采集_cn端?

是的 “.cn“网址,带page=2的链接,也有爬取的动态,但是下载的文件中只有链接,没有博文相关内容
举报 使用道具
Fuller 管理员 发表于 2023-3-8 18:23:58 | 显示全部楼层
fan1119 发表于 2023-3-8 17:53
是的 “.cn“网址,带page=2的链接,也有爬取的动态,但是下载的文件中只有链接,没有博文相关内容 ...

添加的链接发出来看看。
举报 使用道具
robingson 金牌会员 发表于 2023-3-12 09:05:03 | 显示全部楼层
Fuller 发表于 2023-3-8 18:23
添加的链接发出来看看。

管理员,我也发现同样的问题了?采集看不到内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 13:53