1391#
15259876211 初级会员 发表于 2022-9-9 12:07:22 | 只看该作者
你好 我在爬取微博关键词的时候卡在某个搜索的时间范围了 怎么办呀
举报 使用道具
1392#
Fuller 管理员 发表于 2022-9-9 16:52:48 | 只看该作者
15259876211 发表于 2022-9-9 12:07
你好 我在爬取微博关键词的时候卡在某个搜索的时间范围了 怎么办呀

你说的卡在那里是什么意思?爬虫在那里不往下运行了?

一个时间段最多有50页,你在爬虫窗口里观察,翻页到多少页了?是不是出现验证码了?

如果出现验证码,说明被微博封锁了。需要清爬虫软件的缓存,重启爬虫软件,然后在爬虫软件中重新登录微博再启动爬虫任务
举报 使用道具
1393#
fch123456 新手上路 发表于 2022-10-17 14:47:25 | 只看该作者
露营
举报 使用道具
1394#
15259876211 初级会员 发表于 2022-11-9 22:41:43 | 只看该作者
Fuller 发表于 2022-9-9 16:52
你说的卡在那里是什么意思?爬虫在那里不往下运行了?

一个时间段最多有50页,你在爬虫窗口里观察,翻页 ...

谢谢!
举报 使用道具
1395#
knife1897 新手上路 发表于 2022-11-11 16:03:51 | 只看该作者
为什么显示这个第 0个动作没有定位到DOM节点://*[@class='list_ul']//*[@class='more_txt']/*|//*[@class='page next S_txt1 S_line1']/span|//*[@class='W_pages']//*[@class='more_txt']|//*[@class='list_ul']/*[@class='WB_cardmore S_txt1 S_line1 clearfix']/*[@class='more_txt']/*
每次都采集很快 但是快捷采集那里没有可下载的数据啊啊啊啊啊
举报 使用道具
1396#
wangyong 版主 发表于 2022-11-11 17:42:13 | 只看该作者
knife1897 发表于 2022-11-11 16:03
为什么显示这个第 0个动作没有定位到DOM节点://*[@class='list_ul']//*[@class='more_txt']/*|//*[@class= ...

这是没有定位到翻页节点,如果是没采集到数据应该是添加的链接,把你添加采集的连接发出来看看
举报 使用道具
1397#
嘻嘻嘻也 初级会员 发表于 2022-11-20 16:57:24 | 只看该作者
在微博主页以关键词搜索,打包下载后其他信息甚至原网址都有,为什么没有微博内容呢?
举报 使用道具
1398#
gz51837844 管理员 发表于 2022-11-20 18:13:01 | 只看该作者
嘻嘻嘻也 发表于 2022-11-20 16:57
在微博主页以关键词搜索,打包下载后其他信息甚至原网址都有,为什么没有微博内容呢? ...

你使用的是微博关键词搜索结果采集工具? 添加的任务有没有采集成功?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
1399#
嘻嘻嘻也 初级会员 发表于 2022-11-22 16:19:52 | 只看该作者
gz51837844 发表于 2022-11-20 18:13
你使用的是微博关键词搜索结果采集工具? 添加的任务有没有采集成功?

对的,我使用的这个关键词搜索。采集成功了,但是博文一处无法显示全文
举报 使用道具
1400#
Fuller 管理员 发表于 2022-11-22 17:43:34 | 只看该作者
嘻嘻嘻也 发表于 2022-11-22 16:19
对的,我使用的这个关键词搜索。采集成功了,但是博文一处无法显示全文
...

把关键词采集结果导出来以后,在excel中搜索一下,把含有“展开全文”字样的条目找出来,把所有这样的微博网址找出来以后,导入另一个快捷采集工具去采集全文,是这个快捷工具:https://www.gooseeker.com/res/rule_494.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-6-16 13:10