本帖最后由 wangyong 于 2021-8-2 10:26 编辑

微博

微博

微博2

微博2

像这个,我想抓“查看更多”的网址,然后再进一步抓取更详细的主页资料,也就是分别写两个规则。
但是现在问题是有好多个微博博主的主页网址,但是第一个规则却无法试用所有的主页网址,也就是这个“查看更多”的网址无法抓下来,我想问的是这种情况怎么解决,是因为博主网页的网络结构不是全部一样的吗?
(虽然微博采集工具箱有这个工具,但是主页信息不全没有我想抓的东西,所以才自己写规则)
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-4-26 09:51

Fuller 管理员 发表于 2017-3-4 21:05:03 | 显示全部楼层
zhuyechakangengduo.png

想点这个“查看更多”?有两个方案

方案1:就像你现在做的,做两级规则。你现在遇到的问题是第一级网页结构好多种,对吧?其实没有好多种,定义第一级规则的时候尽量用上定位标志映射,能提高适应性。如果确实解决不了,可以在同一个主题名下定义多个规则,每个规则的“规则编号”不同,DS打数机运行的时候会自动选择。

方案2:第二级的网址可以构造,个人和机构的网址有些不同,他们都是在uid之前加了一串数字,个人和机构加的数字不一样,所以,如果你已经采集到了uid,那么直接构造就行了。

另外,也可以直接使用现成的微博采集工具——集微库
举报 使用道具
nn_jj_mm 初级会员 发表于 2017-3-5 10:15:13 | 显示全部楼层
Fuller 发表于 2017-3-4 21:05
想点这个“查看更多”?有两个方案

方案1:就像你现在做的,做两级规则。你现在遇到的问题是第一级网页 ...

已解决,感谢
举报 使用道具
wangyong 版主 发表于 2021-4-26 09:51:34 | 显示全部楼层
下载数据管家从左侧工具条进入微博工具箱,使用微博博主详细资料采集工具 数据管家-微博博主详细资料.png 新建采集任务→选择采集全部历史微博→输入要采集的微博网址建→确定提交启动采集
博主资料输入.png
博主资料启动采集.png
采集状态变成“已采集”时,点击“打包”按钮,就可以下载Excel格式的数据了
数据展示:
数据样例-博主资料.png

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 07:09