采集微博数据要注意多方面的设置,这个帖子不准备罗列所有情况,这里只讲一种情况:使用快捷采集工具 微博签到采集-来过此地的人  老是失败的问题。

例如,采集这个地点:喀纳斯湖,主页网址是:https://weibo.com/p/100101B2094757D06FABFB499F/home

1,看到这样的失败情况
失败20200218171638.png

2,网址是这样得到的
点击 签到的人,从浏览器的地址输入栏拷贝这个网址
不显示20200218172245.png

3,添加到快捷采集工具
使用这个快捷采集工具:微博签到采集-来过此地的人
添加方法如下:
1,选中快捷采集工具
2,输入第二步得到的网址
3,选择要采集的页数
4,点击获取数据
采集20200218172613.png

4,采集失败诊断
就像第二步截图所示,有时候点击 签到的人 其实是看不到网页内容的,这个网址就无效。还有另一个位置的网址可用,点击 “xxx人在这里签到”获得的网址
另一个位置20200218173032.jpg

5,总结
这个故障是因为使用的网址不合适,可以在微博网页上找找,找更加合适的网址进行采集。在给快捷采集添加网址之前,先点开看看能不能显示出来内容,如果能显示内容,才能采集成功



举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2020-2-22 19:18

Fuller 管理员 发表于 2020-2-22 19:18:20 | 显示全部楼层
已经上线了4个微博签到数据的快捷采集,不用做规则,直接使用:
1,微博签到采集_主页
2,微博签到采集_探索此地
3,微博签到采集_此地热议
4,微博签到采集_来过此地的人

用这些工具把微博数据采集下来以后,可以把里面的地址信息找出来,然后再在百度地图api上翻译成经纬度。

找的过程中,可以手工找,手工去查百度得到经纬度。如果数量很大,那就要写一个程序翻译经纬度,或者委托我们做处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:33