现在微博不限字数了,有很多微博总是有“展开全文”,然后以下内容不显示,不知道如何抓取展开以下的内容,请大神赐教!
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2021-1-29 10:53

来自 9#
maomao 论坛元老 发表于 2019-2-12 18:41:54 | 只看该作者
本帖最后由 maomao 于 2020-4-27 11:19 编辑

微博展开全文,现在有快捷工具了,输入微博独立链接,就可以采集微博展开全文。可以通过微博主页工具或者微博关键词工具,批量得到博文的独立链接,然后把这些微博独立链接批量输入到微博展开全文,就可以批量采集微博展开全文了。
举报 使用道具
来自 10#
wangyong 版主 发表于 2021-1-29 10:53:32 | 只看该作者

集搜客微博采集工具箱中通过微博关键词搜索结果采集工具微博博主主页采集工具或者其他微博工具采集微博数据时会采集下带有“展开全文”的数据

在采集结果中通过Excel将含有“展开全文”的数据筛选出来后


将其对应的“博文独立网址”添到微博博文展开全部采集中就可以将“展开全文”后的数据完整采集下来


数据展示:


举报 使用道具
沙发
Fuller 管理员 发表于 2016-3-22 09:16:01 | 只看该作者
这个容易实现,“展开全文”和“下一页”没有区别,像做翻页规则一样,做一个点击“展开全文”的,在“爬虫路线”工作台上做
举报 使用道具
板凳
tt370498563 新手上路 发表于 2016-3-22 09:32:28 | 只看该作者
Fuller 发表于 2016-3-22 09:16
这个容易实现,“展开全文”和“下一页”没有区别,像做翻页规则一样,做一个点击“展开全文”的,在“爬虫 ...

请问是建立一个跟翻页并列的记号线索吗?
举报 使用道具
地板
scraper 论坛元老 发表于 2016-3-22 09:43:27 | 只看该作者
tt370498563 发表于 2016-3-22 09:32
请问是建立一个跟翻页并列的记号线索吗?

如果网页上有多个需要点击的“展开全文",就不适合在爬虫路线里做设置,因为爬虫路线在一个网页上只能点击一次,这时,可以在连续动作中设置点击,参考连续动作的相关教程http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
5#
Fuller 管理员 发表于 2016-3-22 09:53:28 | 只看该作者
tt370498563 发表于 2016-3-22 09:32
请问是建立一个跟翻页并列的记号线索吗?

“展开全文”和翻页都要做?在爬虫路线工作台上,连贯抓取只能有一个。如果是这样,你得做成多级规则,一级点展开全文,用一个主题名;另一级点翻页,用另一个主题名
举报 使用道具
6#
Fuller 管理员 发表于 2016-3-22 09:54:16 | 只看该作者
scraper 发表于 2016-3-22 09:43
如果网页上有多个需要点击的“展开全文",就不适合在爬虫路线里做设置,因为爬虫路线在一个网页上只能点击 ...

连续动作不一定适合这个场景,以为是先后关系,不是连续同时做的关系,所以,应该像我下面的跟帖说的那样
举报 使用道具
7#
tt370498563 新手上路 发表于 2016-3-22 10:00:00 | 只看该作者
Fuller 发表于 2016-3-22 09:54
连续动作不一定适合这个场景,以为是先后关系,不是连续同时做的关系,所以,应该像我下面的跟帖说的那样 ...

那请问具体是怎样设置呢?
举报 使用道具
8#
Fuller 管理员 发表于 2016-3-22 19:07:26 | 只看该作者
tt370498563 发表于 2016-3-22 10:00
那请问具体是怎样设置呢?

这样做:
1,假设当前规则名是A,在爬虫路线工作台上定义一个点击“展开全文”的连贯抓取线索,目标主题名是B
2,然后定义抓取规则B,这就是展开后的那次抓取,在爬虫路线工作台上定义翻页的连贯抓取,目标主题名保持B不变
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 07:21