我是用patent_type区别的二标签页和四标签页,如果是二标签页,patent_type的值是[发明专利]或[实用新型]或[外观设计];如果是四标签页,patent_type的值是[发明授权专利]。
所以我把patent_type对于二标签页的xpath写成.//*[@class='f16 fl'][(contains(./text(),'发明专利') or contains(./text(),'实用新型') or contains(./text(),'外观设计'))=1][contains(./text(),'发明授权专利')=0]/text();对于四标签页的xpath写成.//*[@class='f16 fl'][contains(./text(),'发明授权专利')]/text()。
因为抓取的这些内容在网页上肯定都会出现,所以我都给设成了关键内容。
共 7 个关于本帖的回复 最后回复于 2016-12-27 09:38