抓取内容怎么包括本页面网址

Arie-X

我想要采集做规则这个页面的网址要怎么映射

HJLing · 发表于 2016-10-10 16:29:33

不需要做映射结果文件是自动生成一个字段<fullpath>来存放当前页面的网址

Fuller · 发表于 2016-10-10 16:37:15

纠正一下二楼的帖子，准确地说，不用给网址做内容映射，只要能生成抓取结果文件，会在文件中有<fullpath>字段，这个字段是本网页的加载的时候用的网址，还有一个<realpath>字段，这个是实际网页地址。区别详述如下：

比如，用层级抓取抓百度搜索，第一级抓取百度搜索结果；第二级抓取搜索到的每个网页。

百度搜索结果的每个网址其实不是网站的真实网址，而是百度的网址。在抓第二级的时候，加载网页用的是百度的那个跳转网址，填写到<fullpath>中，百度完成跳转以后，就变成真实网址了，填写到<realpath>中

抓取内容怎么包括本页面网址

共 2 个关于本帖的回复最后回复于 2016-10-10 16:37

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

抓取内容怎么包括本页面网址

共 2 个关于本帖的回复 最后回复于 2016-10-10 16:37

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2016-10-10 16:37