求助!!!任务名:sohu_car_test2_5
整理箱结构不正确:抓取内容没有包含在内
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2019-8-2 16:08

沙发
Fuller 管理员 发表于 2019-8-1 18:30:49 | 只看该作者
一定是做了样例复制,那么就要求给抓取内容做映射的时候,在网页上都必须来自于同一个样例的内容。

如果有个抓取内容其实是不属于样例的,那么要放在样例外边。

如果一个整理箱中既需要抓取样例复制的内容,又要抓取零散的内容,那么需要定义一个嵌套的整理箱,具体参看帖子《怎样建立嵌套整理箱
举报 使用道具
板凳
kaka_22 初级会员 发表于 2019-8-1 18:52:47 | 只看该作者
Fuller 发表于 2019-8-1 18:30
一定是做了样例复制,那么就要求给抓取内容做映射的时候,在网页上都必须来自于同一个样例的内容。

如果有 ...

我爬的网站数据节点是像图里这样的,一个TR节点对应一行,但是每一列是一辆车的全部信息,我也是按列作为一个样例的,是不是这个原因导致的报错?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2019-8-2 09:24:40 | 只看该作者
kaka_22 发表于 2019-8-1 18:52
我爬的网站数据节点是像图里这样的,一个TR节点对应一行,但是每一列是一辆车的全部信息,我也是按列作为 ...

按照列做样例复制没有问题。但是要注意,做规则的时候,只选择第一列的内容做内容映射,不能有几个用第一列的,有几个用第二列的,否则就会出现抓取内容没有包含在内。

另外,如果同时做了内容映射和定位标志映射,两个映射选择的DOM节点应该是父子祖先关系,不能在兄弟分支上。要确定是否是祖先关系,只要从一个节点开始,父节点方向找,一级一级找,只要能找到另一个节点,那就对了,那就是他们在同一支上
举报 使用道具
5#
kaka_22 初级会员 发表于 2019-8-2 10:54:38 | 只看该作者
Fuller 发表于 2019-8-2 09:24
按照列做样例复制没有问题。但是要注意,做规则的时候,只选择第一列的内容做内容映射,不能有几个用第一 ...

我看这个节点的样子好像不行
能帮忙看一下确认一下么  感谢!!!网址在这http://db.auto.sohu.com/yiqiaudi/2374/trim.html


举报 使用道具
6#
Fuller 管理员 发表于 2019-8-2 12:09:07 | 只看该作者
kaka_22 发表于 2019-8-2 10:54
我看这个节点的样子好像不行
能帮忙看一下确认一下么  感谢!!!网址在这http://db.auto.sohu.com/yiqia ...



我看到你已经对每一行做了样例复制。我在这个基础上改动了一下。

整理箱最顶层节点叫做“行”,用tr做样例复制,内部建立一个抓取内容,存表头,比如“厂商指导价”,“4S店报价”等等,然后再创建一个内部嵌套的容器节点“列”,里面含有“单元格”内容,用第一个单元格做内容映射,然后对“列”这个容器用第一行的td做样例复制映射。

整个表采集下来是这样的格式


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2019-8-2 12:11:46 | 只看该作者


汽车型号这一条放在另一个table中,这样就比较麻烦,很难把这一条和下面的参数表格合在一起,只能用另一个整理箱采集下来。

在一个规则中可以有多个整理箱。

最后导出数据以后,把两个整理箱在excel中合并一下

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
kaka_22 初级会员 发表于 2019-8-2 15:56:05 | 只看该作者
Fuller 发表于 2019-8-2 12:11
汽车型号这一条放在另一个table中,这样就比较麻烦,很难把这一条和下面的参数表格合在一起,只能用另一 ...

我试了一下,这样的话原本1万多行的数据爬下来变成了100多万行~
有办法按列爬取么,就是一列作为一个样例来爬
举报 使用道具
9#
Fuller 管理员 发表于 2019-8-2 16:08:00 | 只看该作者
kaka_22 发表于 2019-8-2 15:56
我试了一下,这样的话原本1万多行的数据爬下来变成了100多万行~
有办法按列爬取么,就是一列作为一个样例 ...

主要看网页结构,这个结构没法按列做样例复制
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-6 12:52