我有问题请教大神,我用层级抓取抓客车等级数据,第一层抓每个车型网址,第二层抓每个车型的参数表,各车型参数表两列,28行不等,且有的参数为空,总车型数约4883,遇到两类问题:1.全部抓下来后,用xml合成后变成了两列,4883*28/27/26行的文件,请问如何可以转置成一个车型一行的数据库;
2.为了解决上述问题,我在抓二级数据时,尝试在整理箱中仅抓几个关键参数,但由于有的参数有文本,有的参数直接为空,都没法做内容映射,请问有什么解决方法?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-9 18:23

沙发
wangyong 版主 发表于 2016-12-9 16:12:40 | 只看该作者
规则名和网页链接发一下
举报 使用道具
板凳
hooan2006 初级会员 发表于 2016-12-9 18:12:08 | 只看该作者
规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search
举报 使用道具
地板
hooan2006 初级会员 发表于 2016-12-9 18:12:57 | 只看该作者
wangyong 发表于 2016-12-9 16:12
规则名和网页链接发一下

规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search

举报 使用道具
5#
wangyong 版主 发表于 2016-12-9 18:23:55 | 只看该作者
按照现在second规则的做法,只能先将数据采下来再清洗转置
如果只抓取重要参数的话,就不做样例复制每个,抓取内容都做做映射
例如,
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 17:35