|
翻页线索的定位标志要选择class值为pagination的节点
这样映射生成的路径就不会包含position
这样做之后还有个问题就是会陷入翻页死循环
参加教程《实战:怎么解决翻页死循环/重复翻页的问题》
要采集详细信息可以自己构造网址做层级规则
可以采到企业的ID
用自定义xpath拼上前面的网址就可以了
xpath如下
concat('http://www.chinapesticide.gov.cn/myquery/companydetail?cid=',substring-before(substring-after(.//*[@class='t3']/span/a/@href,"'"),"'"))
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|