集搜客GooSeeker网络爬虫

标题: 基本网页抓取数据匹配失败 [打印本页]

作者: zjtgun    时间: 2017-7-20 17:43
标题: 基本网页抓取数据匹配失败
本帖最后由 zjtgun 于 2017-7-20 17:49 编辑

1,抓取网址:https://www.amazon.com/gp/goldbo ... =sortOrder:BY_SCORE,enforcedCategories:3760901&pf_rd_p=d3152026-148f-4b24-a686-6518d33b1712&pf_rd_s=slot-3&pf_rd_t=701&pf_rd_i=gb_main&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=BMQFMEJJ1S78MCQA5P9S&ie=UTF8
2,希望抓取的数据商品名,原价格,折扣价;
3,内容映射后,模数台测试也都OK
4,但爬数据,有匹配失败,没有任何数据抓取下来;
5,爬完一遍后,再在模数台测试就出现一系列弹出框问题提示;无法找到上级节点,尝试在定义.......
截图参考附件!

作者: Fuller    时间: 2017-7-20 17:54
你的规则名?
作者: zjtgun    时间: 2017-7-20 18:00
Fuller 发表于 2017-7-20 17:54
你的规则名?

规则主题名:亚马逊个人护理

作者: shengchengx    时间: 2017-7-20 18:11
zjtgun 发表于 2017-7-20 18:00
规则主题名:亚马逊个人护理

做规则的时候网页加载网了之后冻结页面,然后加上定位标志映射,我这边加载你的规则看到映射都有问题。

作者: zjtgun    时间: 2017-7-20 18:16
我就是模数台上默认的操作,也没有点击冻结页面,只是做了内容映射,也没有做什么标志映射呀?这个是怎么回事呢?
作者: zjtgun    时间: 2017-7-20 18:20
shengchengx 发表于 2017-7-20 18:11
做规则的时候网页加载网了之后冻结页面,然后加上定位标志映射,我这边加载你的规则看到映射都有问题。
...

怎么看这些问题?我在模数台测试时都没有问题,只是爬了一遍数据,数据失败后,就出现不能用的问题。


作者: wangyong    时间: 2017-7-20 18:25
因为网页结构复杂而且在动态刷新,所以只做普通的映射不行,操作流程参看楼上列出来的
原因参看这两篇文章《冻结页面有什么作用?》《定位标志映射——以采集58同城租房信息为例》
作者: zjtgun    时间: 2017-7-20 18:27
wangyong 发表于 2017-7-20 18:25
因为网页结构复杂而且在动态刷新,所以只做普通的映射不行,操作流程参看楼上列出来的
原因参看这两篇文章 ...

你的意思我内容映射后,还有做冻结页面和定位标志映射的动作吗?谢谢!

作者: wangyong    时间: 2017-7-20 18:58
先冻结页面再做内容映射再做定位标志映射
作者: zjtgun    时间: 2017-7-21 16:13
wangyong 发表于 2017-7-20 18:58
先冻结页面再做内容映射再做定位标志映射

昨天按照你的方法做了个规则,昨天抓取数据没问题,但今天再运行这个规则就出现之前的问题,这个要怎么解决呀?
规则主题名:Amazon_deals






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2