26 35205

自定义采集

数据爬呀爬 于 2019-12-3 20:21 发表 [复制链接]
在自定义采集的过程中,能否设置采集微博用户的博主主页网址呢
举报 使用道具
| 回复

共 26 个关于本帖的回复 最后回复于 2019-12-6 15:37

Fuller 管理员 发表于 2019-12-3 21:48:45 | 显示全部楼层
想从哪类网页上采集博主主页网址?从搜索结果网页上采集博主主页网址吗?
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-4 11:29:20 | 显示全部楼层
类似这样的网页:https://weibo.com/p/100101B2094653D464ABFE499C,可以自定义采集到博主主页网址吗
举报 使用道具
Fuller 管理员 发表于 2019-12-4 16:19:55 | 显示全部楼层
数据爬呀爬 发表于 2019-12-4 11:29
类似这样的网页:https://weibo.com/p/100101B2094653D464ABFE499C,可以自定义采集到博主主页网址吗 ...

你是想把类似这样的网址都找到?

这个不是普通的博主网址,而是用于签到的景点或者周边地点。目前我不知道有没有一个集中的入口,可以搜到所有签到点。

但是可以用这种方法去收集含有签到地点的微博,虽然有些费事,就像撒网捕鱼一样费事:https://www.gooseeker.com/doc/thread-13390-1-1.html
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-4 17:03:38 | 显示全部楼层
对的,我想把这些信息搜集起来,只能用这个方法吗?感觉很费时间呢
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-4 17:10:10 | 显示全部楼层
而且我试着采集了一个签到地点的信息,在定义规则之后测试的时候第一页的内容不全,只能采集到部分博文,定位也选择了绝对定位还是不行,请问这是什么原因呢
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-4 18:21:14 | 显示全部楼层
而且在设置了翻页操作之后,还是只能抓取第一页的数据,该怎么修改呢
举报 使用道具
Fuller 管理员 发表于 2019-12-4 18:52:56 | 显示全部楼层
数据爬呀爬 发表于 2019-12-4 17:10
而且我试着采集了一个签到地点的信息,在定义规则之后测试的时候第一页的内容不全,只能采集到部分博文,定 ...

把规则名发出来,我加载分析一下。一般这种问题是不能用绝对定位的,绝对定位可能更加采集不全,要找到合适的定位,在class和id之间尝试
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-4 19:16:32 | 显示全部楼层
江湾博文
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-4 19:17:21 | 显示全部楼层
每次样例复制之后,测试的结果都不全,而且只能采集第一页内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:26