抓取href 复制样例后 获取到的后面部分都是相对路径?
而前几个抓取到的显示正常,为绝对路径。请各位亲帮忙指导一下,这样会不会影响后续的操作,以及应该作何调整才可以完整获取绝对路径。十分感谢。
以下附上测试结果截图和网址链接。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-4-3 16:14

沙发
Fuller 管理员 发表于 2017-4-3 16:02:25 | 只看该作者
好奇怪,刚才我无操作,把一个下级网页点开了,采集到的就是绝对网址了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-3 16:07:53 | 只看该作者
我又测试了一些,发现确实是这样的,鼠标点过的链接,就变成绝对地址了,看来爬虫采集的时候只能采集到相对地址
举报 使用道具
地板
龙的心的心 新手上路 发表于 2017-4-3 16:09:42 | 只看该作者
Fuller 发表于 2017-4-3 16:07
我又测试了一些,发现确实是这样的,鼠标点过的链接,就变成绝对地址了,看来爬虫采集的时候只能采集到相对 ...

采集到相对网址会不会影响后续的数据采集?
举报 使用道具
5#
龙的心的心 新手上路 发表于 2017-4-3 16:10:46 | 只看该作者
http://hotels.ctrip.com/hotel/beijing1#ctm_ref=ctr_hp_sb_lst
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-3 16:14:12 | 只看该作者

手工做定位标志映射,选择那个大家都有的标志,而避开@class='hotel_stars04',就能防止MS谋数台生成规则的时候自动使用后者作为标志,否则只能采集到4星级的酒店

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2017-4-3 16:14:39 | 只看该作者
龙的心的心 发表于 2017-4-3 16:09
采集到相对网址会不会影响后续的数据采集?

生成下级线索的时候会自动补齐网址
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置

热门用户

GMT+8, 2026-3-26 01:51