6 13859

微博展开原文

sdt110 于 2020-4-8 17:54 发表 [复制链接]
有什么办法可以在使用关键词高级搜索的同时展开原文吗?
数据量比较大,重新爬取比较耗时耗力
查看源代码发现 展开原文是是一个新的p tag

微博网页源码

微博网页源码

感觉技术上实现问题不大。。
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-4-9 14:47

Fuller 管理员 发表于 2020-4-8 23:13:51 | 显示全部楼层
如果那个标签中有完整的微博内容,直接做规则,用内容映射的方式,把这个隐藏的html元素映射给抓取内容。

但是,我记得这个元素内容是空的,点击以后才填上内容。每点击一次是要花时间的。还存在一个问题,就是每点击一次都会采集一次内容,是采集当前整个网页,那么就会有大量的重复数据
举报 使用道具
sdt110 中级会员 发表于 2020-4-9 09:59:16 | 显示全部楼层
Fuller 发表于 2020-4-8 23:13
如果那个标签中有完整的微博内容,直接做规则,用内容映射的方式,把这个隐藏的html元素映射给抓取内容。

...

微信图片_20200409095635.png
好像不用点击就可以看到  可以在关键词高级搜索那个快捷采集的基础上修改吗?还是需要我重新创建一个规则?

举报 使用道具
Fuller 管理员 发表于 2020-4-9 11:16:46 | 显示全部楼层
sdt110 发表于 2020-4-9 09:59
好像不用点击就可以看到  可以在关键词高级搜索那个快捷采集的基础上修改吗?还是需要我重新创建一个规 ...

我也用chrome开发者工具看了,不点击看不到内容,我可能找了一条后面的微博,不是第一屏的,也许第一屏的微博预先加载了。

点击展开全文的时候,在开发者工具上能很明显地看到新建了一个div节点
举报 使用道具
ym 版主 发表于 2020-4-9 11:20:01 | 显示全部楼层
可以把微博的详情链接(发布时间里就是微博详情链接)采集下来,详情里是展开全部博文的,对详情采集即可获取到完整博文。
集搜客有提供详情页面的采集工具《微博博文展开全部采集》,可以先用《微博关键词搜索结果采集工具》采集到微博的详情链接,再把链接添加到《微博博文展开全部采集》采集博文详情。

举报 使用道具
sdt110 中级会员 发表于 2020-4-9 13:05:04 | 显示全部楼层
Fuller 发表于 2020-4-9 11:16
我也用chrome开发者工具看了,不点击看不到内容,我可能找了一条后面的微博,不是第一屏的,也许第一屏的 ...

可以啊 我也是从后面随便找的一页  而且你查看网页源代码 也是可以找到feed_list_content_full这个标签的。我自己新建规则,后面下载是不是还要转excel啊 有没有办法直接下下来就是excel啊
举报 使用道具
Fuller 管理员 发表于 2020-4-9 14:47:40 | 显示全部楼层
sdt110 发表于 2020-4-9 13:05
可以啊 我也是从后面随便找的一页  而且你查看网页源代码 也是可以找到feed_list_content_full这个标签的 ...

爬虫采集下来的原始结果是xml格式的,想转成什么格式的你可以自己写程序处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:35