本帖最后由 王建国 于 2020-7-30 10:55 编辑

使用集搜客的微博关键词搜索结果采集工具采集微博数据,怎样能采到地理位置信息
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-1-12 21:02

wangyong 版主 发表于 2020-7-30 11:06:31 | 显示全部楼层
在微博关键词搜索工具输入采集关键词时,可以设置细分地区

微博地区分类.png

在高级设置中的细分地区勾选上所有省份和所有城市后,集搜客可会将每个地级市都生成一条独立的微博网址

例如:https://s.weibo.com/weibo/%2523%25E7%25A7%2591%25E6%258A%2580%25E9%2583%25A8%25E6%2598%258E%25E7%25A1%25AE%25E8%25AE%25BA%25E6%2596%2587%25E6%2595%25B0%25E9%2587%258F%25E4%25B8%258D%25E5%258F%25AF%25E4%25B8%258E%25E5%25A5%2596%25E5%258A%25B1%25E6%258C%2582%25E9%2592%25A9%2523?q=%23%E7%A7%91%E6%8A%80%E9%83%A8%E6%98%8E%E7%A1%AE%E8%AE%BA%E6%96%87%E6%95%B0%E9%87%8F%E4%B8%8D%E5%8F%AF%E4%B8%8E%E5%A5%96%E5%8A%B1%E6%8C%82%E9%92%A9%23®ion=custom:44:3&typeall=1&suball=1&Refer=g
微博地区搜索.png
按照以上设置后采集结果的搜索条件中就会包含地区,要注意的是按照地区细分后会生成大量的独立链接。
如果关键词数据量少的情况下,需要控制好细分时间的颗粒度,避免造成一个搜索条件下一条数据也没有的情况,这样采集耗费的时间更长。

通常在设置高级条件之前,需要在微博上时间搜索一下查看数据量

举报 使用道具
Fuller 管理员 发表于 2020-7-30 14:54:10 | 显示全部楼层
关于这个地点,我一直没有明白是发微博的地点,还是用户注册时的地点
举报 使用道具
乐享创者 金牌会员 发表于 2021-1-6 20:51:12 | 显示全部楼层
Fuller 发表于 2020-7-30 14:54
关于这个地点,我一直没有明白是发微博的地点,还是用户注册时的地点

您好,我尝试勾选全部地区后,爬取了一万多条数据,但很大一部分都是重复的;没勾选,就少了非常多的量,想问下这个对结果影响是不是很大
举报 使用道具
scraper 论坛元老 发表于 2021-1-7 09:18:28 | 显示全部楼层
乐享创者 发表于 2021-1-6 20:51
您好,我尝试勾选全部地区后,爬取了一万多条数据,但很大一部分都是重复的;没勾选,就少了非常多的量, ...

条件不能分的很细,很细的情况下就会有些重复的出现
举报 使用道具
scraper 论坛元老 发表于 2021-1-7 09:18:42 | 显示全部楼层
Fuller 发表于 2020-7-30 14:54
关于这个地点,我一直没有明白是发微博的地点,还是用户注册时的地点

这个是用户发博的地点
举报 使用道具
乐享创者 金牌会员 发表于 2021-1-9 16:59:32 | 显示全部楼层
scraper 发表于 2021-1-7 09:18
条件不能分的很细,很细的情况下就会有些重复的出现

嗯呐好嘞,谢谢您!那集搜客可以通过设置,在爬取的时候自动剔除重复数据吗?
举报 使用道具
Fuller 管理员 发表于 2021-1-10 07:58:42 | 显示全部楼层
乐享创者 发表于 2021-1-9 16:59
嗯呐好嘞,谢谢您!那集搜客可以通过设置,在爬取的时候自动剔除重复数据吗?
...

采集的结果中不剔除重复数据,要在导出以后,自己在excel根据剔除规则剔除
举报 使用道具
乐享创者 金牌会员 发表于 2021-1-11 23:43:48 | 显示全部楼层
Fuller 发表于 2021-1-10 07:58
采集的结果中不剔除重复数据,要在导出以后,自己在excel根据剔除规则剔除
...

害,因为有几万条数据,量太大了,所以想着如果能自动剔除就好了!谢谢您的回答
举报 使用道具
乐享创者 金牌会员 发表于 2021-1-11 23:45:23 | 显示全部楼层
本帖最后由 乐享创者 于 2021-1-12 14:18 编辑
Fuller 发表于 2021-1-10 07:58
采集的结果中不剔除重复数据,要在导出以后,自己在excel根据剔除规则剔除
...


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 07:41