1、自己写的规则,存在一些问题。
爬取数据时,明明设置关键词、地点后这一天的微博量不过50条。
但是仍然存在爬到某个时间段不爬了,显示成功爬完了,导出结果后发现少了很多条微博。不知道是哪里出现了微博,麻烦帮忙看一下
2、爬的都是相同东西,只是日期不同,有些日期就爬取失败,在群里技术人员给了一个帖子链接,http://www.jisouke.com/doc/thread-662-1-1.html。试了一下,但是【输出窗口】并没有结果啊

【pm2.5_微博抓取完整博文】规则名称
求大神帮忙看一下

TIM图片20180118113501.png (9.19 KB, 下载次数: 515)

TIM图片20180118113501.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-1-18 18:45

沙发
数据集二期 中级会员 发表于 2018-1-18 14:22:53 | 只看该作者
本帖最后由 数据集二期 于 2018-1-18 14:27 编辑

1,规则加载进去就报错了,抓取内容1,2,3映射失败了,重新做一下内容映射,再给抓取的内容加上定位映射
2,记号线索的目标主题名与当前主题名不一致,采集的时候不会翻页,把记号线索的目标主题名改成和当前主题名一致。

39.png (248.93 KB, 下载次数: 476)

39.png

423.png (48.47 KB, 下载次数: 453)

423.png
举报 使用道具
板凳
ShanA930 金牌会员 发表于 2018-1-18 18:45:18 | 只看该作者
好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 18:19