抓取网页里面所有超级链接

爱莲ss

如题希望抓取网页里全部链接

Fuller · 发表于 2016-10-11 15:41:18

这样做有点像拷站程序，可以做一个通用的抓取规则，在“创建规则”工作台上只创建一个抓取内容，用整个网页的body做内容映射。在“爬虫路线”工作台上创建一个线索，设置成样式线索，然后创建样式，比如，把所有包含“http://”的网址抓下来，或者把所有某种特定前缀的url都抓下来

爱莲ss · 发表于 2016-10-11 15:46:32

Fuller 发表于 2016-10-11 15:41
这样做有点像拷站程序，可以做一个通用的抓取规则，在“创建规则”工作台上只创建一个抓取内容，用整个网页 ...

这样出来的结果就是当做线索了，我想要像抓取内容那样输出

Fuller · 发表于 2016-10-11 16:09:37

爱莲ss 发表于 2016-10-11 15:46
这样出来的结果就是当做线索了，我想要像抓取内容那样输出

可以用自定义xpath，根据网址的特征，使用XPath的字符串函数，比如，contains()等，XPath的字符串函数很少，所以，能实现的需求有限

共 3 个关于本帖的回复最后回复于 2016-10-11 16:09

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页