抓取href 复制样例后 获取到的后面部分都是相对路径?
而前几个抓取到的显示正常,为绝对路径。请各位亲帮忙指导一下,这样会不会影响后续的操作,以及应该作何调整才可以完整获取绝对路径。十分感谢。
以下附上测试结果截图和网址链接。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-4-3 16:14

沙发
Fuller 管理员 发表于 2017-4-3 16:02:25 | 只看该作者
好奇怪,刚才我无操作,把一个下级网页点开了,采集到的就是绝对网址了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-3 16:07:53 | 只看该作者
我又测试了一些,发现确实是这样的,鼠标点过的链接,就变成绝对地址了,看来爬虫采集的时候只能采集到相对地址
举报 使用道具
地板
龙的心的心 新手上路 发表于 2017-4-3 16:09:42 | 只看该作者
Fuller 发表于 2017-4-3 16:07
我又测试了一些,发现确实是这样的,鼠标点过的链接,就变成绝对地址了,看来爬虫采集的时候只能采集到相对 ...

采集到相对网址会不会影响后续的数据采集?
举报 使用道具
5#
龙的心的心 新手上路 发表于 2017-4-3 16:10:46 | 只看该作者
http://hotels.ctrip.com/hotel/beijing1#ctm_ref=ctr_hp_sb_lst
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-3 16:14:12 | 只看该作者

手工做定位标志映射,选择那个大家都有的标志,而避开@class='hotel_stars04',就能防止MS谋数台生成规则的时候自动使用后者作为标志,否则只能采集到4星级的酒店

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2017-4-3 16:14:39 | 只看该作者
龙的心的心 发表于 2017-4-3 16:09
采集到相对网址会不会影响后续的数据采集?

生成下级线索的时候会自动补齐网址
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 06:02