规则主题名:Amazon_deals
之前做好规则并运行规则没有问题,第二天再加载规则就出现加载规则失败,规则已经无法使用。

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-7-24 17:08

沙发
Fuller 管理员 发表于 2017-7-24 12:04:38 | 只看该作者
会不会是网页结构变了,加载规则后,输出什么错误信息?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-7-24 13:47:23 | 只看该作者
这个列表页网页结构比较复杂多变,最好做两级规则,第一级规则,把商品链接地址采下来,第二级找一个最全的商品详情页,做详情页规则。
举报 使用道具
地板
zjtgun 初级会员 发表于 2017-7-24 13:50:51 | 只看该作者
Fuller 发表于 2017-7-24 12:04
会不会是网页结构变了,加载规则后,输出什么错误信息?

亚马逊的网页一直都在刷新,上架商品都会不定时刷新,点击测试就弹出无法找到上级节点.......

图1.PNG (101.53 KB, 下载次数: 958)

图1.PNG
举报 使用道具
5#
Fuller 管理员 发表于 2017-7-24 13:56:04 | 只看该作者
所以,按上面所说,做个两级规则试试。我看到它的详情页,还是比较规整的。
举报 使用道具
6#
zjtgun 初级会员 发表于 2017-7-24 14:19:45 | 只看该作者
Fuller 发表于 2017-7-24 13:56
所以,按上面所说,做个两级规则试试。我看到它的详情页,还是比较规整的。 ...

现在问题是第一级规则的商品列表信息就有问题?
另外每个商品的链接地址我找不到@href属性,是不是我要到它的上一级去找这个网址?

举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-7-24 15:04:08 | 只看该作者
zjtgun 发表于 2017-7-24 14:19
现在问题是第一级规则的商品列表信息就有问题?
另外每个商品的链接地址我找不到@href属性,是不是我要到 ...


我这边加载这个网页需要很长时间呢,加载出来之后剩余时间这个字段是有问题的呢,你冻结页面之后再做规则试试呢

举报 使用道具
8#
zjtgun 初级会员 发表于 2017-7-24 15:50:31 | 只看该作者
shengchengx 发表于 2017-7-24 15:04
我这边加载这个网页需要很长时间呢,加载出来之后剩余时间这个字段是有问题的呢,你冻结页面之后再做规 ...

1、我最早做规则是冻结后再做的,问题是规则当时都能用,第二天再加载规则来用,就出现问题了。
2、剩余时间的抓取之前就抓不了,这个问题我正想问你们,你们帮忙看看是怎么回事?
谢谢支持!

举报 使用道具
9#
shengchengx 金牌会员 发表于 2017-7-24 16:09:29 | 只看该作者
zjtgun 发表于 2017-7-24 15:50
1、我最早做规则是冻结后再做的,问题是规则当时都能用,第二天再加载规则来用,就出现问题了。
2、剩余 ...

规则的问题呢,因为网页一直有变化,所以第二天就加载有问题呢
剩余时间这个需要找一个网页数据最全的网页来做样本网页呢,我看到这个上面不是所有商品都有剩余时间呢,抓取的时候如果有剩余时间就可以抓取到,如果没有就抓取不到的

举报 使用道具
10#
zjtgun 初级会员 发表于 2017-7-24 16:52:37 | 只看该作者
shengchengx 发表于 2017-7-24 16:09
规则的问题呢,因为网页一直有变化,所以第二天就加载有问题呢
剩余时间这个需要找一个网页数据最全的网 ...

那这种网页一直变化数据抓取的规则要怎么做呢?
剩余时间的确不是每个商品都有,部分商品有时间限制,我现在是在商品列表页面抓的,不是商品详细页面抓数据。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 16:35