我有问题请教大神,我用层级抓取抓客车等级数据,第一层抓每个车型网址,第二层抓每个车型的参数表,各车型参数表两列,28行不等,且有的参数为空,总车型数约4883,遇到两类问题:1.全部抓下来后,用xml合成后变成了两列,4883*28/27/26行的文件,请问如何可以转置成一个车型一行的数据库;
2.为了解决上述问题,我在抓二级数据时,尝试在整理箱中仅抓几个关键参数,但由于有的参数有文本,有的参数直接为空,都没法做内容映射,请问有什么解决方法?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-9 18:23

沙发
wangyong 版主 发表于 2016-12-9 16:12:40 | 只看该作者
规则名和网页链接发一下
举报 使用道具
板凳
hooan2006 初级会员 发表于 2016-12-9 18:12:08 | 只看该作者
规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search
举报 使用道具
地板
hooan2006 初级会员 发表于 2016-12-9 18:12:57 | 只看该作者
wangyong 发表于 2016-12-9 16:12
规则名和网页链接发一下

规则名:Bus_rank_first,和Bus_rank_second,抓取网页链接:http://www.ztauto.com/index.php?g=Search&a=search

举报 使用道具
5#
wangyong 版主 发表于 2016-12-9 18:23:55 | 只看该作者
按照现在second规则的做法,只能先将数据采下来再清洗转置
如果只抓取重要参数的话,就不做样例复制每个,抓取内容都做做映射
例如,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-1 08:11