规则名称:微博抓取_博主首页博文互动数据_第二步
测试链接:https://weibo.com/u/3622512610?is_all=1
https://www.weibo.com/u/2405584352?is_all=1

问题描述:

塔塔鲁斯 2020-02-13 12:07:00

但是实际过程中发现,抓取会失败;因为如果用绝对定位;不同微博博主的首页绝对定位上面的内容不一样;如果用calss,评论、转发、点赞的calss定位是一样的导致抓不到数据


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-11-9 10:51

来自 3#
wangyong 版主 发表于 2020-11-9 10:47:26 | 只看该作者
使用集搜客微博工具箱中的微博博主首页采集工具,输入博主链接可以直接点击获取数据,非常简洁,不需要再编写采集规则

在输入链接可以选择三种不同的采集模式
1,全部历史微博:采集到当前微博账号下发布的所有微博数据
2,通过链接翻页看到的全部微博:因为微博主页的链接有多种样例,比如有按月份查询和搜索关键词的还有热门微博的,这种情况就只采集链接能查看到的微博
2,仅第1页:不进行翻页只采集第一页的数据,就是题主要采集的首页数据。

数据示例






举报 使用道具
沙发
Fuller 管理员 发表于 2020-2-13 16:04:18 | 只看该作者
这里有多个经验贴,关于定位标志相同怎么办:https://www.gooseeker.com/doc/thread-707-1-1.html
我通常使用这种方法:
找到这些节点的父节点或者比较近的祖先节点,如果有合适的定位标志,用他们共同的祖先节点做定位标志映射。这样得到的xpath是相对于他们祖先节点的,那么会用postion函数把这项具有相同定位标志的节点区分开
举报 使用道具
地板
Fuller 管理员 发表于 2020-11-9 10:51:34 | 只看该作者
升级成最新版网络爬虫软件吧,微博采集工具箱和快捷采集都在左边栏有快捷入口,方便使用。下载地址:https://www.gooseeker.com/pro/product_note_firefox.html

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 18:47