同一个主题的不同规则，选取的网页标志无法判断该使用哪个规则

jfstip

本帖最后由 jfstip 于 2016-12-1 16:57 编辑

管理员好！大家好！我在抓取商标数据时，遇到如下问题：
商标分共有商标和非共有商标两种。在网页上的区别是：共有商标的字段“是否共有商标”的值是“是”，并且页面上有共有申请人1和有申请人2两个字段

非共有商标的字段“是否共有商标”的值是“否”，并且页面上没有共有申请人1和有申请人2两个字段

我想在同一个主题下建不同的规则。我选了共有申请人1字段作为共有商标的判断标志，非共有商标则没有选判断标志。做好了的两个规则，共有的规则排在前面

经实测，共有和非共有的网页都用了共有的规则。非共有的网页，使用了共有规则，网页标志定位到了和共有申请人1同一个位置的字段：后期指定日期。

我改了几次定位的首选项，仍无法区分不同的规则。不知此问题该如何解决？谢谢！
原始网址如下：
非共有商标：http://www.itaotm.com/info/925d788dddc8054e/38/20161201110823/0/0/1177
共有商标：http://www.itaotm.com/info/2ca57436a65def11/36/20161201131941/0/0/1

Fuller · 发表于 2016-12-1 16:58:58

得写自定义xpath，把“共有申请人”这个字符串写到XPath中，用contains()函数

Fuller · 发表于 2016-12-1 16:59:13

你的主题名是什么？主题名贴出来，不用担心别人能加载，只有管理员可以加载分析

jfstip · 发表于 2016-12-1 17:31:04

Fuller 发表于 2016-12-1 16:59
你的主题名是什么？主题名贴出来，不用担心别人能加载，只有管理员可以加载分析 ...

主题名是：trademark_details_bk。那我研究一下xpath，谢谢！

Fuller · 发表于 2016-12-1 17:47:21

jfstip 发表于 2016-12-1 17:31
主题名是：trademark_details_bk。那我研究一下xpath，谢谢！

你这个规则全部是自动生成，这样判断不了有还是没有，那个标志部分，自动生成的是这样

tbody/tr[position()=8]/td[position()=4]/text()

复制代码

手工改成

tbody/tr[position()=8]/td[position()=4 and contains(preceding-sibling::td[1]/text(), '是否共有商标')]/text()

复制代码

这样应该就可以了

jfstip · 发表于 2016-12-12 18:26:40

Fuller 发表于 2016-12-1 17:47
你这个规则全部是自动生成，这样判断不了有还是没有，那个标志部分，自动生成的是这样手工改成

这样应该 ...

我理解您的意思了，确认一下：preceding-sibling::td[1]指的是最邻近当前td的第一个前方的兄弟td是吗？我原来以为是当前td的所有的前面的兄弟td中位置最靠上的第一个。

Fuller · 发表于 2016-12-12 19:04:34

jfstip 发表于 2016-12-12 18:26
我理解您的意思了，确认一下：preceding-sibling::td[1]指的是最邻近当前td的第一个前方的兄弟td是吗？我 ...

是的，应该是最邻近的那个

jfstip · 发表于 2016-12-13 09:29:33

Fuller 发表于 2016-12-12 19:04
是的，应该是最邻近的那个

谢谢！

同一个主题的不同规则，选取的网页标志无法判断该使用哪个规则

共 7 个关于本帖的回复最后回复于 2016-12-13 09:29

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

同一个主题的不同规则，选取的网页标志无法判断该使用哪个规则

共 7 个关于本帖的回复 最后回复于 2016-12-13 09:29

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2016-12-13 09:29