本帖最后由 18829589652 于 2020-6-24 12:00 编辑

新手一枚,想爬微博数据,一级规则任务名是:张骞2,二级为张骞。网址为:https://weibo.com/rmrb。
不知道为什么测试没问题,抓数据的时候“内容”那一块都是空的(图1),其他ID、时间等数据都没问题。
如果将内容部分定位映射DIV部分,可以抓到内容,但只能抓到“展开全文”前的内容(图2),我的一级规则设置就是连续动作点开展开全文,只抓展开全文前的内容没有什么用。
图1


图2



举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-6-24 23:02

沙发
18829589652 初级会员 发表于 2020-6-24 11:47:35 | 只看该作者
求大神们指教
举报 使用道具
板凳
wangyong 版主 发表于 2020-6-24 12:03:11 | 只看该作者
要抓博主发布微博的展开全文,可以用微博博主主页采集工具微博博文展开全部采集,配合使用
不需要另做采集规则
举报 使用道具
地板
18829589652 初级会员 发表于 2020-6-24 12:07:49 | 只看该作者
wangyong 发表于 2020-6-24 12:03
要抓博主发布微博的展开全文,可以用微博博主主页采集工具和微博博文展开全部采集,配合使用
不需要另做采 ...

主要是想知道自己的规则出了什么问题,请大佬指教~
举报 使用道具
5#
Fuller 管理员 发表于 2020-6-24 16:08:56 | 只看该作者
18829589652 发表于 2020-6-24 12:07
主要是想知道自己的规则出了什么问题,请大佬指教~

在列表页面那里用点击动作逐个点击“展开全文”,这个方法我们是不推荐使用的,因为每点击一次就采集一次,那么采集到的内容既有点击开的,也有没有点击开的,等采集下来以后,要用一个程序把点击开的找出来。很麻烦。所以,建议把含有“展开全文”的微博单独拿出来,放在这个展开全文快捷采集中重新采集一遍。

但看你做的规则,有这几个问题:
1,第一级虽然不想采集数据,但是应该定义整理箱,不然,就没有检查规则是否合适的功能了。也不知道网页内容是否加载全了,很可能网页还没有显示出来,就去点击了,所有都失败了。
2,点击动作的xpath不对,要能定位到“展开全文”这个超链接才行。正确的操作方法如下图,选中那个超链接,点击显示xpath按钮,生成xpath以后,点击“搜索”按钮,并且点击“下一个”,逐个看看有没有漏的


举报 使用道具
6#
18829589652 初级会员 发表于 2020-6-24 20:35:24 | 只看该作者
Fuller 发表于 2020-6-24 16:08
在列表页面那里用点击动作逐个点击“展开全文”,这个方法我们是不推荐使用的,因为每点击一次就采集一次 ...

好的,谢谢~
举报 使用道具
7#
18829589652 初级会员 发表于 2020-6-24 22:16:51 | 只看该作者
本帖最后由 18829589652 于 2020-6-24 22:18 编辑
Fuller 发表于 2020-6-24 16:08
在列表页面那里用点击动作逐个点击“展开全文”,这个方法我们是不推荐使用的,因为每点击一次就采集一次 ...

您好,请问是我设置的不对吗?用的微博内容展开,但采集到的数据依旧没有展开全文,而且采集的发布时间为什么是“关注”?

举报 使用道具
8#
Fuller 管理员 发表于 2020-6-24 22:54:09 | 只看该作者
18829589652 发表于 2020-6-24 22:16
您好,请问是我设置的不对吗?用的微博内容展开,但采集到的数据依旧没有展开全文,而且采集的发布时间为 ...

快捷采集里面的展开微博全文采集工具的样例网址打开观察一下,就会发现这个网址是具体某条微博的网址。而不是某个博主的主页,也不是搜索结果网页。

那怎么得到这个网址呢?

你采集完微博博主主页或者搜索结果或者话题,导出采集结果,得到一个微博消息列表。利用excel的过滤功能,把微博内容中含有“展开全文”字样的微博过滤出来,把他们的网址拷贝出来,添加到这个微博全文采集工具中。
举报 使用道具
9#
18829589652 初级会员 发表于 2020-6-24 23:02:05 | 只看该作者
Fuller 发表于 2020-6-24 22:54
快捷采集里面的展开微博全文采集工具的样例网址打开观察一下,就会发现这个网址是具体某条微博的网址。而 ...

好的,谢谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:36