1、自己写的规则,存在一些问题。
爬取数据时,明明设置关键词、地点后这一天的微博量不过50条。
但是仍然存在爬到某个时间段不爬了,显示成功爬完了,导出结果后发现少了很多条微博。不知道是哪里出现了微博,麻烦帮忙看一下
2、爬的都是相同东西,只是日期不同,有些日期就爬取失败,在群里技术人员给了一个帖子链接,http://www.jisouke.com/doc/thread-662-1-1.html。试了一下,但是【输出窗口】并没有结果啊

【pm2.5_微博抓取完整博文】规则名称
求大神帮忙看一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-1-18 18:45

沙发
数据集二期 中级会员 发表于 2018-1-18 14:22:53 | 只看该作者
本帖最后由 数据集二期 于 2018-1-18 14:27 编辑

1,规则加载进去就报错了,抓取内容1,2,3映射失败了,重新做一下内容映射,再给抓取的内容加上定位映射
2,记号线索的目标主题名与当前主题名不一致,采集的时候不会翻页,把记号线索的目标主题名改成和当前主题名一致。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
ShanA930 论坛元老 发表于 2018-1-18 18:45:18 | 只看该作者
好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-31 08:03