本帖最后由 wangyong 于 2021-4-27 11:44 编辑

我用集搜客的微博采集工具箱,输入关键词就能启动自动的网络爬虫软件,很方便。但是有个迷惑我的问题:

在建立采集任务的时候,我把多个关键词放在同一个任务中,用逗号隔开,这样好吗?还是要每个关键词一个采集任务更好?


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-11-10 10:32

内容分析应用 金牌会员 发表于 2020-11-10 10:08:08 | 显示全部楼层
可以一次输入多个关键词,用逗号分隔开, 这种情况多个关键词是归属于同一个任务, 打包的数据也是在同一个excel结果文件里


举报 使用道具
Fuller 管理员 发表于 2020-11-10 10:27:34 | 显示全部楼层
内容分析应用 发表于 2020-11-10 10:08
可以一次输入多个关键词,用逗号分隔开, 这种情况多个关键词是归属于同一个任务, 打包的数据也是在同一个 ...

是不是分开采集更全?因为微博采集翻页数量有限制,只有50页,如果多个关键词放在一起搜,只要有一个匹配到了,就会显示在搜索结果中,那么,搜索结果会很多,很容易超出50页
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2020-11-10 10:29:38 | 显示全部楼层
Fuller 发表于 2020-11-10 10:27
是不是分开采集更全?因为微博采集翻页数量有限制,只有50页,如果多个关键词放在一起搜,只要有一个匹配 ...

其实我想达到一个效果:只要同时出现这些关键词的微博。如果每个关键词分成一个任务,怎么达到我想要的目的?
举报 使用道具
Fuller 管理员 发表于 2020-11-10 10:32:06 | 显示全部楼层
发誓学好内容分析 发表于 2020-11-10 10:29
其实我想达到一个效果:只要同时出现这些关键词的微博。如果每个关键词分成一个任务,怎么达到我想要的目 ...

你这个目的是要分析共现关系。你即使把共现词放在同一个搜索条件里面,也达不到目的,因为微博搜索结果是按最优排序的。如果同时出现,那是最优,但是后面那些搜索结果就可能只出现某个搜索词。

所以,无论怎样搜索,最后都得做共现词分析,要用集搜客分词软件的选词和导出共现词的功能,分词软件的入口是这个网址,免安装,在线使用:https://www.gooseeker.com/res/softdetail_13.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:52