集搜客GooSeeker网络爬虫

标题: 微博爬取展开全文内容 [打印本页]

作者: 13667084742    时间: 2019-12-13 23:11
标题: 微博爬取展开全文内容
我不知道怎么爬取有展开全文的内容,我的规则名称是suibe_wbfx1,恳请大佬帮我分析一下,支个招,感谢!


作者: maomao    时间: 2019-12-13 23:48
最简单的方法是做层级抓取,第一级规则把每条博文的链接抓取到,博文的链接在博文发布时间那个DOM节点,然后第二级规则到博文页面,去抓博文完整内容。
作者: wangyong    时间: 2021-1-29 10:51

集搜客微博采集工具箱中通过微博关键词搜索结果采集工具微博博主主页采集工具或者其他微博工具采集微博数据时会采集下带有“展开全文”的数据

在采集结果中通过Excel将含有“展开全文”的数据筛选出来后
[attach]13593[/attach]

将其对应的“博文独立网址”添到微博博文展开全部采集中就可以将“展开全文”后的数据完整采集下来
[attach]13594[/attach]

数据展示:

[attach]13595[/attach]





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2