15259876211 初级会员 发表于 2022-9-9 12:07:22 | 显示全部楼层
你好 我在爬取微博关键词的时候卡在某个搜索的时间范围了 怎么办呀
举报 使用道具
Fuller 管理员 发表于 2022-9-9 16:52:48 | 显示全部楼层
15259876211 发表于 2022-9-9 12:07
你好 我在爬取微博关键词的时候卡在某个搜索的时间范围了 怎么办呀

你说的卡在那里是什么意思?爬虫在那里不往下运行了?

一个时间段最多有50页,你在爬虫窗口里观察,翻页到多少页了?是不是出现验证码了?

如果出现验证码,说明被微博封锁了。需要清爬虫软件的缓存,重启爬虫软件,然后在爬虫软件中重新登录微博再启动爬虫任务
举报 使用道具
fch123456 新手上路 发表于 2022-10-17 14:47:25 | 显示全部楼层
露营
举报 使用道具
15259876211 初级会员 发表于 2022-11-9 22:41:43 | 显示全部楼层
Fuller 发表于 2022-9-9 16:52
你说的卡在那里是什么意思?爬虫在那里不往下运行了?

一个时间段最多有50页,你在爬虫窗口里观察,翻页 ...

谢谢!
举报 使用道具
knife1897 新手上路 发表于 2022-11-11 16:03:51 | 显示全部楼层
为什么显示这个第 0个动作没有定位到DOM节点://*[@class='list_ul']//*[@class='more_txt']/*|//*[@class='page next S_txt1 S_line1']/span|//*[@class='W_pages']//*[@class='more_txt']|//*[@class='list_ul']/*[@class='WB_cardmore S_txt1 S_line1 clearfix']/*[@class='more_txt']/*
每次都采集很快 但是快捷采集那里没有可下载的数据啊啊啊啊啊
举报 使用道具
wangyong 版主 发表于 2022-11-11 17:42:13 | 显示全部楼层
knife1897 发表于 2022-11-11 16:03
为什么显示这个第 0个动作没有定位到DOM节点://*[@class='list_ul']//*[@class='more_txt']/*|//*[@class= ...

这是没有定位到翻页节点,如果是没采集到数据应该是添加的链接,把你添加采集的连接发出来看看
举报 使用道具
嘻嘻嘻也 初级会员 发表于 2022-11-20 16:57:24 | 显示全部楼层
在微博主页以关键词搜索,打包下载后其他信息甚至原网址都有,为什么没有微博内容呢?
举报 使用道具
gz51837844 管理员 发表于 2022-11-20 18:13:01 | 显示全部楼层
嘻嘻嘻也 发表于 2022-11-20 16:57
在微博主页以关键词搜索,打包下载后其他信息甚至原网址都有,为什么没有微博内容呢? ...

你使用的是微博关键词搜索结果采集工具? 添加的任务有没有采集成功?
QQ截图20221120180837.png


举报 使用道具
嘻嘻嘻也 初级会员 发表于 2022-11-22 16:19:52 | 显示全部楼层
gz51837844 发表于 2022-11-20 18:13
你使用的是微博关键词搜索结果采集工具? 添加的任务有没有采集成功?

对的,我使用的这个关键词搜索。采集成功了,但是博文一处无法显示全文
举报 使用道具
Fuller 管理员 发表于 2022-11-22 17:43:34 | 显示全部楼层
嘻嘻嘻也 发表于 2022-11-22 16:19
对的,我使用的这个关键词搜索。采集成功了,但是博文一处无法显示全文
...

把关键词采集结果导出来以后,在excel中搜索一下,把含有“展开全文”字样的条目找出来,把所有这样的微博网址找出来以后,导入另一个快捷采集工具去采集全文,是这个快捷工具:https://www.gooseeker.com/res/rule_494.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 17:52