您好,请问一下
我之前做了一个简单的抓取商品名和价格的规则,加入了226条线索,进行集搜的时候显示有多条采集失败。
但是我进行后续分析的时候又没有任何问题。请问是什么原因呢?有什么解决办法吗
我做的规则是:速卖通价格采集-27
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-2-27 12:03

沙发
Fuller 管理员 发表于 2020-2-27 10:21:24 | 只看该作者


建议这样做上定位标志映射,规则的适应性会大大增加。价格那里,会有好几种情况,定位标志映射的时候既可以选择最精确的DOM节点,也可以选择范围更大的父节点。

如果加载分析规则却没有失败,那么很可能是网速跟不上,价格没有显示出来造成的。你设置的超时时长是多少?通常是1分钟,这个数字通常不要改短,如果规则做的好,这个数字并不影响抓取的速度

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
sayuri199502 初级会员 发表于 2020-2-27 11:15:54 | 只看该作者
Fuller 发表于 2020-2-27 10:21
建议这样做上定位标志映射,规则的适应性会大大增加。价格那里,会有好几种情况,定位标志映射的时候既可 ...

您好

谢谢您的回答
请问定位标志映射在什么情况下适用,是做任何规则都可以使用定位标志映射来增加规则的适应性吗
举报 使用道具
地板
Fuller 管理员 发表于 2020-2-27 12:03:44 | 只看该作者
sayuri199502 发表于 2020-2-27 11:15
您好

谢谢您的回答

网页上有合适的定位标志的话,就尽量用上。什么是合适的,通常这样看:
1,名字很有意义,比如,价格节点的class属性值就是price。如果是没有意义的一串字符,尤其是好多节点共用的字符串,就要慎重使用,有可能引起混淆
2,本DOM节点没有合适的class或者id,但是父节点或者祖先节点有,层次越少越好,离着太远就不太好,如果碰到一个网页,含有定位标志的节点和当前节点之间插入了别的节点,规则就失效了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 04:33