|
我看到你的规则采集“发文时间”用了自定义xpath,采集是正确的,根据文字中出现“2018”这个字样来定位。发文时间的xpath是- .//*[@class='article-sub']/span[contains(text(),'2018')]/text()
复制代码
那么来源信息也可以相对于“2018”字样,来源的xpath是
- .//*[@class='article-sub']/span[contains(following-sibling::span[1]/text(),'2018')]/text()
复制代码
使用了following-sibling 是找下一个兄弟节点,span[1]表示下面的兄弟中的第一个
|
|
共 1 个关于本帖的回复 最后回复于 2018-9-12 18:00