A   B   两个网页相似  但  以些许不一样!
写了两个规则     A  规则 采集A 网页    B  规则采集  B网页    两个规则在  一个规则中!   规则1  规则2
两个规则不同之处  做了绝对定位    但 A 网页就是  把B网页抓去采集   导致  B  网页  不能被B规则采集    遗漏数据!
规则 名称    采集1-3     规则2  和   规则5  得问题
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-3-7 17:14

沙发
HJLing 版主 发表于 2017-3-7 11:51:00 | 只看该作者
就是店铺位置有细微差别 不需要写两个规则 直接用自定义xpath来定位店铺位置就好了
.//*[contains(@class,'shop-name')]/a/text()

店铺名称和下面的商品离得比较远 要加上定位标志映射
举报 使用道具
板凳
zhongqucaiji 高级会员 发表于 2017-3-7 13:48:51 | 只看该作者
HJLing 发表于 2017-3-7 11:51
就是店铺位置有细微差别 不需要写两个规则 直接用自定义xpath来定位店铺位置就好了
.//*[contains(@class,' ...

样例复制1    做定位标志映射是 什么原因
举报 使用道具
地板
zhongqucaiji 高级会员 发表于 2017-3-7 13:50:39 | 只看该作者
HJLing 发表于 2017-3-7 11:51
就是店铺位置有细微差别 不需要写两个规则 直接用自定义xpath来定位店铺位置就好了
.//*[contains(@class,' ...

样例复制1  做定位标志映射 得意思 是   定位 所有   该标志得  节点  然后  用样例复制2   进行  样例复制采集嘛?

举报 使用道具
5#
HJLing 版主 发表于 2017-3-7 14:06:52 | 只看该作者
zhongqucaiji 发表于 2017-3-7 13:50
样例复制1  做定位标志映射 得意思 是   定位 所有   该标志得  节点  然后  用样例复制2   进行  样例复 ...

定位标志映射有时候也起到样例复制的作用
具体自己去试试就知道了

举报 使用道具
6#
zhongqucaiji 高级会员 发表于 2017-3-7 16:29:20 | 只看该作者
HJLing 发表于 2017-3-7 14:06
定位标志映射有时候也起到样例复制的作用
具体自己去试试就知道了

还是不能适用    普通淘宝店铺  店铺名是   SPAN 下  A       企业店铺  是  DIV  下  A       虽然  CLASS 都是  shop-name   但是  这样   企业店铺连同    “旺旺在线”  一起采集了!
还有淘宝认证店铺   连同“进入店铺 ”     "TB"等不相关得字样业采集了
举报 使用道具
7#
HJLing 版主 发表于 2017-3-7 16:43:18 | 只看该作者
zhongqucaiji 发表于 2017-3-7 16:29
还是不能适用    普通淘宝店铺  店铺名是   SPAN 下  A       企业店铺  是  DIV  下  A       虽然  CLA ...


并没有出现你说的情况
而且 我说的xpath只是针对你早上你给的两个样本页面 如果要有不一样的 那你就继续分析修改!!

举报 使用道具
8#
zhongqucaiji 高级会员 发表于 2017-3-7 17:02:59 | 只看该作者
HJLing 发表于 2017-3-7 16:43
并没有出现你说的情况
而且 我说的xpath只是针对你早上你给的两个样本页面 如果要有不一样的 那你就继续 ...

这两个店铺类型是相同的   A   的位置相同的  CLASS也是  企业店铺   类型 开始转变   
举报 使用道具
9#
HJLing 版主 发表于 2017-3-7 17:14:41 | 只看该作者
zhongqucaiji 发表于 2017-3-7 17:02
这两个店铺类型是相同的   A   的位置相同的  CLASS也是  企业店铺   类型 开始转变   
...

普通店铺:https://shop70198786.taobao.com/ ... rType=_coefp#anchor
企业店铺:https://shop341431863.taobao.com ... rType=_coefp#anchor
做规则测试了这两个 没有问题 结果就是上面截图的那两个

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 12:23