您好,请问一下
我之前做了一个简单的抓取商品名和价格的规则,加入了226条线索,进行集搜的时候显示有多条采集失败。
但是我进行后续分析的时候又没有任何问题。请问是什么原因呢?有什么解决办法吗
我做的规则是:速卖通价格采集-27
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-2-27 12:03

沙发
Fuller 管理员 发表于 2020-2-27 10:21:24 | 只看该作者


建议这样做上定位标志映射,规则的适应性会大大增加。价格那里,会有好几种情况,定位标志映射的时候既可以选择最精确的DOM节点,也可以选择范围更大的父节点。

如果加载分析规则却没有失败,那么很可能是网速跟不上,价格没有显示出来造成的。你设置的超时时长是多少?通常是1分钟,这个数字通常不要改短,如果规则做的好,这个数字并不影响抓取的速度
举报 使用道具
板凳
sayuri199502 初级会员 发表于 2020-2-27 11:15:54 | 只看该作者
Fuller 发表于 2020-2-27 10:21
建议这样做上定位标志映射,规则的适应性会大大增加。价格那里,会有好几种情况,定位标志映射的时候既可 ...

您好

谢谢您的回答
请问定位标志映射在什么情况下适用,是做任何规则都可以使用定位标志映射来增加规则的适应性吗
举报 使用道具
地板
Fuller 管理员 发表于 2020-2-27 12:03:44 | 只看该作者
sayuri199502 发表于 2020-2-27 11:15
您好

谢谢您的回答

网页上有合适的定位标志的话,就尽量用上。什么是合适的,通常这样看:
1,名字很有意义,比如,价格节点的class属性值就是price。如果是没有意义的一串字符,尤其是好多节点共用的字符串,就要慎重使用,有可能引起混淆
2,本DOM节点没有合适的class或者id,但是父节点或者祖先节点有,层次越少越好,离着太远就不太好,如果碰到一个网页,含有定位标志的节点和当前节点之间插入了别的节点,规则就失效了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 19:11