1、自己写的规则,存在一些问题。
爬取数据时,明明设置关键词、地点后这一天的微博量不过50条。
但是仍然存在爬到某个时间段不爬了,显示成功爬完了,导出结果后发现少了很多条微博。不知道是哪里出现了微博,麻烦帮忙看一下
2、爬的都是相同东西,只是日期不同,有些日期就爬取失败,在群里技术人员给了一个帖子链接,http://www.jisouke.com/doc/thread-662-1-1.html。试了一下,但是【输出窗口】并没有结果啊

【pm2.5_微博抓取完整博文】规则名称
求大神帮忙看一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-1-18 18:45

沙发
数据集二期 中级会员 发表于 2018-1-18 14:22:53 | 只看该作者
本帖最后由 数据集二期 于 2018-1-18 14:27 编辑

1,规则加载进去就报错了,抓取内容1,2,3映射失败了,重新做一下内容映射,再给抓取的内容加上定位映射
2,记号线索的目标主题名与当前主题名不一致,采集的时候不会翻页,把记号线索的目标主题名改成和当前主题名一致。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
ShanA930 金牌会员 发表于 2018-1-18 18:45:18 | 只看该作者
好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-12 04:00