11#
Lemon tree 新手上路 发表于 2015-10-30 17:24:16 | 只看该作者
13版excel的试了 可以导出 不过导出的字段都只有做规则时的字段 默认的那些网址字段没有了 可不可以加上这些字段 然后可选
举报 使用道具
12#
pyh258 初级会员 发表于 2015-10-31 15:58:15 | 只看该作者
给我两个XML文件,你想要哪些字段,我测试一下。
举报 使用道具
13#
Lemon tree 新手上路 发表于 2015-11-2 10:24:48 | 只看该作者
pyh258 发表于 2015-10-31 15:58
给我两个XML文件,你想要哪些字段,我测试一下。

就是用软件采集之后的结果文件会含有realpath、theme的那几个字段
举报 使用道具
14#
pyh258 初级会员 发表于 2015-11-2 21:46:52 | 只看该作者
本帖最后由 pyh258 于 2015-11-2 22:28 编辑

gz51837844:请试一下1.2版本是否好用。增加了两个整理箱的XML文件合并功能。
举报 使用道具
15#
gz51837844 管理员 发表于 2015-11-3 10:34:55 | 只看该作者
好的,我试一下新版本。
举报 使用道具
16#
gz51837844 管理员 发表于 2015-11-3 12:11:27 | 只看该作者
TO: pyh258   
用1.2版本,选择2个整理箱,刚才导入测试是成功的
举报 使用道具
17#
gooseeker_info 金牌会员 发表于 2015-11-3 12:23:26 | 只看该作者
GooSeeker的抓取结果既可能是树状结构,也可能是多个整理箱(就是多棵子数)。所以,合并程序就要处理这些复杂情况。

最近我们自己写的入库程序过程增加了转换成json的功能(不是爬虫做这个转换,而是入库的时候做这个转换),从xml转成json比较直接,因为json允许树状结构
举报 使用道具
18#
lynn000000 初级会员 发表于 2015-11-5 14:58:20 | 只看该作者
只想弱弱的问一句,如果遇到网页结构多变的,做了3-4甚至更多整理箱的怎么办。。。
举报 使用道具
19#
Fuller 管理员 发表于 2015-11-5 16:10:26 | 只看该作者
lynn000000 发表于 2015-11-5 14:58
只想弱弱的问一句,如果遇到网页结构多变的,做了3-4甚至更多整理箱的怎么办。。。 ...

多个整理箱是在支持范围之内的,不过具体要问一下 @pyh258 朋友,他是作者,把这个软件作品贡献给GooSeeker社区的。也可以先下载下来试一下,有问题具体讨论一下
举报 使用道具
20#
lynn000000 初级会员 发表于 2015-11-6 15:21:59 | 只看该作者
报这个错不知道什么意思

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-6-21 03:25