我有问题请教大神,我用层级抓取抓客车等级数据,第一层抓每个车型网址,第二层抓每个车型的参数表,各车型参数表两列,28行不等,且有的参数为空,总车型数约4883,遇到两类问题:1.全部抓下来后,用xml合成后变成了两列,4883*28/27/26行的文件,请问如何可以转置成一个车型一行的数据库;
2.为了解决上述问题,我在抓二级数据时,尝试在整理箱中仅抓几个关键参数,但由于有的参数有文本,有的参数直接为空,都没法做内容映射,请问有什么解决方法?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-9 18:23

沙发
shenzhenuser1 版主 发表于 2016-12-9 16:12:40 | 只看该作者
规则名和网页链接发一下
举报 使用道具
板凳
hooan2006 初级会员 发表于 2016-12-9 18:12:08 | 只看该作者
规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search
举报 使用道具
地板
hooan2006 初级会员 发表于 2016-12-9 18:12:57 | 只看该作者
wangyong 发表于 2016-12-9 16:12
规则名和网页链接发一下

规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search

举报 使用道具
5#
shenzhenuser1 版主 发表于 2016-12-9 18:23:55 | 只看该作者
按照现在second规则的做法,只能先将数据采下来再清洗转置
如果只抓取重要参数的话,就不做样例复制每个,抓取内容都做做映射
例如,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置

热门用户

GMT+8, 2026-3-24 15:42