主题:京东商品一级
京东商品二级
京东商品三级

举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2019-4-12 22:43

沙发
Fuller 管理员 发表于 2019-4-10 22:07:28 | 只看该作者
第三级根本没有必要采集商品名字,因为在其他级都采集到了,如果要采集,不要跟评论信息放在一起,有两个方案:
方案一:商品名字放在一个整理箱,评论信息放在一个整理箱
方案二:像下图一样,评论放在一个子箱子中

原因是:商品名字与评论在网页上离的太远了,他们是在DOM树的两个大分支上。如果他们并排放在一起抓取,那么,爬虫先定位到商品名字,然后评论信息那几项都是参照商品名字的位置进行定位,而商品名字和评论详细之间离得太远,每个网页可能会在这之间放不同结构的内容,会影响规则的适应性。


我把评论信息放在一个子箱子中,然后给每个抓取内容和容器节点都做上定位标志映射,每个定位标志映射就会在网页上划定一个范围,这样就会很精准。具体参看教程《定位标志精确采集范围

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
七七七七月 初级会员 发表于 2019-4-11 17:44:19 | 只看该作者
我如果不采集 商品名称  评论我就不知道是评论的那个商品
举报 使用道具
地板
七七七七月 初级会员 发表于 2019-4-11 17:45:50 | 只看该作者
现在的问题是  三级的数据不是跟二级的数据同步的出现的  二级已经爬了一千多  三级也是只有很少的几十个数据
举报 使用道具
5#
Fuller 管理员 发表于 2019-4-11 18:46:21 | 只看该作者
七七七七月 发表于 2019-4-11 17:44
我如果不采集 商品名称  评论我就不知道是评论的那个商品

即使不放在一起,比如,放在两张表中,但是他们都有共同的fullpath字段,也就是网址,根据这个可以匹配在一起
举报 使用道具
6#
Fuller 管理员 发表于 2019-4-11 18:47:38 | 只看该作者
七七七七月 发表于 2019-4-11 17:45
现在的问题是  三级的数据不是跟二级的数据同步的出现的  二级已经爬了一千多  三级也是只有很少的几十个数 ...

第二级用连贯抓取跳到第三级,正常的话,不会给第三级生成线索,从第二级开始,一口气将第三级的也抓了。

如果你是看到结果数据少,那说明规则不合适,漏数据了
举报 使用道具
7#
七七七七月 初级会员 发表于 2019-4-11 22:00:07 | 只看该作者
那我这个是哪里出了问题  漏了特别多数据
举报 使用道具
8#
Fuller 管理员 发表于 2019-4-12 08:26:24 | 只看该作者
七七七七月 发表于 2019-4-11 22:00
那我这个是哪里出了问题  漏了特别多数据

光看你一个样本页面上的规则,看起来规则很好,但是不知道在哪个网页上会不适应。建议采取两个措施:
1,用上定位标志映射,这样生成的规则中就会避免很多position函数,不定点定位,适应性就好很多,如下图
2,导出数据以后,excel表中有个fullpath字段,等规则加载到工作台上以后,在地址栏输入这个网址,然后选择菜单 规则-》刷新页面结构,再选择 规则-》分析页面,看看有什么问题


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
七七七七月 初级会员 发表于 2019-4-12 14:24:09 | 只看该作者
您好  我现在的数据  二级20条  三级就会出10条甚至不出   这个该怎么解决
举报 使用道具
10#
七七七七月 初级会员 发表于 2019-4-12 14:24:31 | 只看该作者
是哪里出了问题了吗  是不是规则的问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 17:24