本帖最后由 jfstip 于 2016-12-1 16:57 编辑

管理员好!大家好!我在抓取商标数据时,遇到如下问题:
商标分共有商标和非共有商标两种。在网页上的区别是:共有商标的字段“是否共有商标”的值是“是”,并且页面上有共有申请人1和有申请人2两个字段

非共有商标的字段“是否共有商标”的值是“否”,并且页面上没有共有申请人1和有申请人2两个字段

我想在同一个主题下建不同的规则。我选了共有申请人1字段作为共有商标的判断标志,非共有商标则没有选判断标志。做好了的两个规则,共有的规则排在前面

经实测,共有和非共有的网页都用了共有的规则。非共有的网页,使用了共有规则,网页标志定位到了和共有申请人1同一个位置的字段:后期指定日期。

我改了几次定位的首选项,仍无法区分不同的规则。不知此问题该如何解决?谢谢!
原始网址如下:
非共有商标:http://www.itaotm.com/info/925d788dddc8054e/38/20161201110823/0/0/1177
共有商标:http://www.itaotm.com/info/2ca57436a65def11/36/20161201131941/0/0/1

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-12-13 09:29

沙发
Fuller 管理员 发表于 2016-12-1 16:58:58 | 只看该作者
得写自定义xpath,把“共有申请人”这个字符串写到XPath中,用contains()函数
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-1 16:59:13 | 只看该作者
你的主题名是什么?主题名贴出来,不用担心别人能加载,只有管理员可以加载分析
举报 使用道具
地板
jfstip 初级会员 发表于 2016-12-1 17:31:04 | 只看该作者
Fuller 发表于 2016-12-1 16:59
你的主题名是什么?主题名贴出来,不用担心别人能加载,只有管理员可以加载分析 ...

主题名是:trademark_details_bk。那我研究一下xpath,谢谢!
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-1 17:47:21 | 只看该作者
jfstip 发表于 2016-12-1 17:31
主题名是:trademark_details_bk。那我研究一下xpath,谢谢!

你这个规则全部是自动生成,这样判断不了有还是没有,那个标志部分,自动生成的是这样
  1. tbody/tr[position()=8]/td[position()=4]/text()
复制代码
手工改成
  1. tbody/tr[position()=8]/td[position()=4 and contains(preceding-sibling::td[1]/text(), '是否共有商标')]/text()
复制代码


这样应该就可以了





举报 使用道具
6#
jfstip 初级会员 发表于 2016-12-12 18:26:40 | 只看该作者
Fuller 发表于 2016-12-1 17:47
你这个规则全部是自动生成,这样判断不了有还是没有,那个标志部分,自动生成的是这样手工改成

这样应该 ...

我理解您的意思了,确认一下:preceding-sibling::td[1]指的是最邻近当前td的第一个前方的兄弟td是吗?我原来以为是当前td的所有的前面的兄弟td中位置最靠上的第一个。
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-12 19:04:34 | 只看该作者
jfstip 发表于 2016-12-12 18:26
我理解您的意思了,确认一下:preceding-sibling::td[1]指的是最邻近当前td的第一个前方的兄弟td是吗?我 ...

是的,应该是最邻近的那个
举报 使用道具
8#
jfstip 初级会员 发表于 2016-12-13 09:29:33 | 只看该作者
Fuller 发表于 2016-12-12 19:04
是的,应该是最邻近的那个

谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 19:02