1031#
maomao 论坛元老 发表于 2020-2-19 17:19:06 | 只看该作者
ada1999 发表于 2020-2-19 16:23
我想问两个问题:1.微博评论采集,采集窗口很早就显示匹配失败,但一直显示运行中怎么办?2、采集开始时, ...

微博评论是瀑布流,不是翻页,很难说能采集多少。要想尽量采集的多,有以下建议:
1. 爬微博之前,一定要在集搜客浏览器登陆微博
2.网速要好,网速好,才能及时加载网页,把评论加载出来
3.计算机处理速度要快,这样才能及时把评论网页加载出来
4.采集量大了,要及时清缓存

举报 使用道具
1032#
351351 新手上路 发表于 2020-2-23 12:56:13 | 只看该作者
请问如何设置规则 比如时间限制(比如到哪一天就自动停止),
举报 使用道具
1033#
Fuller 管理员 发表于 2020-2-23 13:10:44 | 只看该作者
351351 发表于 2020-2-23 12:56
请问如何设置规则 比如时间限制(比如到哪一天就自动停止),

你在用哪个微博采集工具?关键词搜索吗?
举报 使用道具
1034#
351351 新手上路 发表于 2020-2-23 13:12:20 | 只看该作者
Fuller 发表于 2020-2-23 13:10
你在用哪个微博采集工具?关键词搜索吗?

微博博主 主页内容,

举报 使用道具
1035#
Fuller 管理员 发表于 2020-2-23 13:15:38 | 只看该作者
微博关键词搜索有两个快捷采集,如下图,红框里面那个,需要输入要采集的网址,蓝框那个需要输入关键词,有高级设置条件,其中有起始和终止日期


举报 使用道具
1036#
351351 新手上路 发表于 2020-2-23 13:44:29 | 只看该作者
Fuller 发表于 2020-2-23 13:15
微博关键词搜索有两个快捷采集,如下图,红框里面那个,需要输入要采集的网址,蓝框那个需要输入关键词,有 ...

那如果要爬取某个账号一个月内的所有内容该怎么办
举报 使用道具
1037#
Fuller 管理员 发表于 2020-2-23 14:52:36 | 只看该作者
351351 发表于 2020-2-23 13:44
那如果要爬取某个账号一个月内的所有内容该怎么办

比如,下面这个微博,如果博文很多,会在右边有个选择条,选择好了以后,把地址栏中的新网址拷贝下来,放入 新浪微博博主主页 那个采集工具中:


举报 使用道具
1038#
351351 新手上路 发表于 2020-2-23 14:54:56 | 只看该作者
Fuller 发表于 2020-2-23 14:52
比如,下面这个微博,如果博文很多,会在右边有个选择条,选择好了以后,把地址栏中的新网址拷贝下来,放 ...

十分感谢


举报 使用道具
1039#
990906 新手上路 发表于 2020-2-27 09:36:34 | 只看该作者
我想知道,可以把微博的位置信息采集下来吗
举报 使用道具
1040#
Fuller 管理员 发表于 2020-2-27 10:14:49 | 只看该作者
990906 发表于 2020-2-27 09:36
我想知道,可以把微博的位置信息采集下来吗

采集微博的时候,如果博文中有地点名,会把这个名字采集下来。如果还需要这个地点对应的经纬度,需要到百度地图上去查
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 05:59