抓取后的数据生成了一千多个XML文件,用网站的工具转换EXCEL一直卡住不动了,求解决
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-4-29 10:44

沙发
ym 版主 发表于 2016-2-3 14:39:53 | 只看该作者
不知你下载的是哪种转换工具,如果是excel宏的话,遇到不支持的字符就会转换失败。
现在集搜客有提供数据管理功能,进入个人中心->爬虫管理->规则管理中,点击进入对应规则的管理页面,激活入库后,手工导入单个xml文件/多个xml的压缩包zip,导入成功后,点击导出数据,再去历史记录里就能下载转换格式后的excel文件,参考教程第四步http://www.gooseeker.com/doc/article-200-1.html
举报 使用道具
板凳
duan416389 新手上路 发表于 2016-2-3 20:23:10 | 只看该作者
ym 发表于 2016-2-3 14:39
不知你下载的是哪种转换工具,如果是excel宏的话,遇到不支持的字符就会转换失败。
现在集搜客有提供数据管 ...

没有不支持的字符,也没有失败,就是很慢,一直卡在那,点击的话就显示未响应。
举报 使用道具
地板
Fuller 管理员 发表于 2016-2-3 21:44:18 | 只看该作者
duan416389 发表于 2016-2-3 20:23
没有不支持的字符,也没有失败,就是很慢,一直卡在那,点击的话就显示未响应。 ...

GooSeeker网站上有3个转换Excel工具,分别是不同网友和GooSeeker官方发布的,你下载的是哪一个?

我建议你使用会员中心里的入库功能,导入云存储服务器,再导出成excel。另外,官方发布的那个excel导入工具处理几万条数据都没有问题
举报 使用道具
5#
xdbbbetg 初级会员 发表于 2016-2-7 12:04:16 | 只看该作者
Fuller 发表于 2016-2-3 21:44
GooSeeker网站上有3个转换Excel工具,分别是不同网友和GooSeeker官方发布的,你下载的是哪一个?

我建议 ...

如果有几十万条数据怎么导入,直接用excel导几万条是很快的,数据越多就越慢
举报 使用道具
6#
xdbbbetg 初级会员 发表于 2016-2-7 12:11:09 | 只看该作者
xdbbbetg 发表于 2016-2-7 12:04
如果有几十万条数据怎么导入,直接用excel导几万条是很快的,数据越多就越慢 ...

现在都是一次导个五六万行,然后合并,好麻烦
举报 使用道具
7#
Fuller 管理员 发表于 2016-2-7 13:56:47 | 只看该作者
xdbbbetg 发表于 2016-2-7 12:11
现在都是一次导个五六万行,然后合并,好麻烦

如果用DS打数机抓取下来的,可以在会员中的规则管理那里把入库激活,把爬虫群调度激活。那么就会一边抓取一边入库。不过这么大数量入库免费,要导出就要收费,费率在这里:http://www.gooseeker.com/about/charge.html
举报 使用道具
8#
kcjbyr 中级会员 发表于 2016-2-10 17:47:31 | 只看该作者
Fuller 发表于 2016-2-7 13:56
如果用DS打数机抓取下来的,可以在会员中的规则管理那里把入库激活,把爬虫群调度激活。那么就会一边抓取 ...

这么多天我终于知道了转换规则是按xslt来的,可以直接按要求转成目标文件。我已经知道怎么干了,实际不用搞成这么多xml文件,全导成文本文件批处理更快
举报 使用道具
9#
echonj 初级会员 发表于 2016-4-29 10:24:33 | 只看该作者
kcjbyr 发表于 2016-2-10 17:47
这么多天我终于知道了转换规则是按xslt来的,可以直接按要求转成目标文件。我已经知道怎么干了,实际不用 ...

求教 怎么设置导出的方式。
举报 使用道具
10#
Fuller 管理员 发表于 2016-4-29 10:44:25 | 只看该作者
echonj 发表于 2016-4-29 10:24
求教 怎么设置导出的方式。

我不知道kcjbyr 是怎么做的,但是我知道有一种方法,就是把生成的抓取规则进行修改,就像他说的,抓取规则其实是标准的xslt程序,只要手工修改,你想生成什么格式都行,比如,jason也行。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 05:28