目前在爬取天眼查数据,规则为corp_url_test
有两个字段设置为非关键字段,但是在DS启动规则时发现如果这两个字段抓取不到还是会报错,请问是什么问题?





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
| 回复

共 9 个关于本帖的回复 最后回复于 2019-4-15 16:33

沙发
Fuller 管理员 发表于 2019-4-11 21:07:33 | 只看该作者
用DS打数机采集成功的,但是用MS谋数台加载规则可能失败。这种情况很正常,因为没有设置关键内容的,DS打数机抓取的时候尽力去抓,抓不到也不报错,而MS谋数台加载规则的时候却要把所有字段加载上来,所以就会分析失败
举报
板凳
蔚儿 高级会员 发表于 2019-4-15 12:43:18 | 只看该作者
Fuller 发表于 2019-4-11 21:07
用DS打数机采集成功的,但是用MS谋数台加载规则可能失败。这种情况很正常,因为没有设置关键内容的,DS打数 ...

但是我设置了关键内容的话,很多又抓不到就会失败,这个怎么办呢?

举报
地板
wangyong 版主 发表于 2019-4-15 13:54:07 | 只看该作者
蔚儿 发表于 2019-4-15 12:43
但是我设置了关键内容的话,很多又抓不到就会失败,这个怎么办呢?

抓取失败的页面网页上是有对应的内容吗?
举报
5#
Fuller 管理员 发表于 2019-4-15 14:38:47 | 只看该作者
尽量用上定位标志映射,我估计你遇到的问题就没有了。
举报
6#
蔚儿 高级会员 发表于 2019-4-15 15:37:45 | 只看该作者
wangyong 发表于 2019-4-15 13:54
抓取失败的页面网页上是有对应的内容吗?

页面有内容,测试的时候都能通过,但是大量的失败。一百条能爬10条这样子,URL页面好像形式不太统一

举报
7#
Fuller 管理员 发表于 2019-4-15 15:45:44 | 只看该作者
蔚儿 发表于 2019-4-15 15:37
页面有内容,测试的时候都能通过,但是大量的失败。一百条能爬10条这样子,URL页面好像形式不太统一

...

用上定位标志映射,会最大限度地避免网页结构变化造成的失败
举报
8#
蔚儿 高级会员 发表于 2019-4-15 15:59:56 | 只看该作者
Fuller 发表于 2019-4-15 15:45
用上定位标志映射,会最大限度地避免网页结构变化造成的失败

我试了定位标志映射,如图,还是测试通过,一抓就错,不知道问题出在哪里,请赐教


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
9#
蔚儿 高级会员 发表于 2019-4-15 16:05:36 | 只看该作者
Fuller 发表于 2019-4-15 15:45
用上定位标志映射,会最大限度地避免网页结构变化造成的失败

规则如下
https://www.gooseeker.com/secure ... ew/share376194.html
https://www.gooseeker.com/secure ... ew/share366882.html
此前一直使用都没问题

举报
10#
Fuller 管理员 发表于 2019-4-15 16:33:17 | 只看该作者
不要用自定义xpath,而且你用的自定义xpath是以 // 开头的,这种不能用于样例复制的情形,因为样例复制的情形下,自定义xpath应该以 ./ 开头,表示抓取内容的表达式应该相对于容器节点的位置。

这个网页其实是很好采集的,做内容映射,再做定位标志映射,再修改一下定位偏好,变成偏好class,就更好了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-17 02:51