原有规则在添加“定位"后改变是什么原因,图1是没添加”定位映射“的,图2是添加之后的,这个怎么更改啊

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-10-7 11:38

沙发
Fuller 管理员 发表于 2017-10-6 22:48:32 | 只看该作者
添加了定位标志映射以后,如果原先能采集到多个样例,现在只能采集一个,说明错误地使用了唯一性的定位标志,比如,有些@id ,是唯一标识一条微博的,这样的标志不能用。


如果多个字段抓混了,本来想抓评论,却抓到了收藏,那是走到另一个极端了:就是错误地使用了相同的class值。即使没有做定位标志映射,但是,爬虫会尽量自动找一个定位标志,如果两个字段的class是一样的,就会搞混了,具体解决方法看这几个帖子:《避免不合适的定位标志影响抓取规则
举报 使用道具
板凳
chengyiling 初级会员 发表于 2017-10-7 11:12:56 | 只看该作者
Fuller 发表于 2017-10-6 22:48
添加了定位标志映射以后,如果原先能采集到多个样例,现在只能采集一个,说明错误地使用了唯一性的定位标志 ...

你好,我现在每一页的内容可以成功抓取下来,但是后续的内容是重复抓取了第一页,这个怎么解决啊,感谢。
举报 使用道具
地板
Fuller 管理员 发表于 2017-10-7 11:14:48 | 只看该作者
chengyiling 发表于 2017-10-7 11:12
你好,我现在每一页的内容可以成功抓取下来,但是后续的内容是重复抓取了第一页,这个怎么解决啊,感谢。 ...

估计是翻页不成功。你的主题名是什么?我帮你看看
举报 使用道具
5#
chengyiling 初级会员 发表于 2017-10-7 11:24:36 | 只看该作者
双一流原创微博,谢谢
举报 使用道具
6#
chengyiling 初级会员 发表于 2017-10-7 11:25:17 | 只看该作者
chengyiling 发表于 2017-10-7 11:24
双一流原创微博,谢谢

我重新设置了爬虫路线,本来50页的抓了5页,我也不知道什么原因了
举报 使用道具
7#
Fuller 管理员 发表于 2017-10-7 11:36:21 | 只看该作者
chengyiling 发表于 2017-10-7 11:25
我重新设置了爬虫路线,本来50页的抓了5页,我也不知道什么原因了

首先要打开DS打数机的滚屏;其次用筛选条件,设置发博时间,只抓一个小时的微博,在excel中可以把网址大量构造出来,导入到爬虫里面
举报 使用道具
8#
Fuller 管理员 发表于 2017-10-7 11:37:21 | 只看该作者
举报 使用道具
9#
chengyiling 初级会员 发表于 2017-10-7 11:38:45 | 只看该作者
好的,十分感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-10 13:44