自定义xpath问题

木木西里数据

重庆市公共资源交易平台-列表页-招标信息-S2Y 在获取下一级网址时出现问题如何利用xpath 将 opendetailjyxx('1041428705916006400','014005001') 以及发布日期字段

2021-11-30

拼接为https://www.cqggzy.com/xxhz/014005/014005001/20211130/1041428705916006400.html 这样形势的url

wangyong · 发表于 2021-11-30 14:14:16

concat('https://www.cqggzy.com/jumpnew.html?infoid=',substring-before(substring-after(.//*[@class='l']/@onclick,"opendetailjyxx('"),"','"),'&categorynum=',substring-before(substring-after(.//*[@class='l']/@onclick,"','"),"')"))

复制代码

这个xpath

gz51837844 · 发表于 2021-11-30 14:37:43

除了使用xpath函数进行字符串的截取和拼接，还可以使用如下方法：
1. 社区版用户(包括旗舰版，专业版，vip版，免费版)，对于复杂的字符串的截取与拼接，可以导出后在excel里做。如果是拼接网址，拼接后的网址结果可以添加到某个任务，供爬虫去爬取。添加网址的操作参考教程：如何管理网络爬虫的线索 - 资讯 - 集搜客GooSeeker网络爬虫
2. 对于企业版用户，爬虫服务器软件和数据库都是在企业自己的服务器上，可以很方便的创建清洗过程，来实现对复杂字符串进行截取、拼接后自动生成和添加网址，也可以自动对数据进行去重和多级数据的关联与合并。

自定义xpath问题

共 2 个关于本帖的回复最后回复于 2021-11-30 14:37

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

自定义xpath问题

共 2 个关于本帖的回复 最后回复于 2021-11-30 14:37

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2021-11-30 14:37