规则名称:网贷之家_资讯_3.1   
爬出的数据一个xml文件中出现了多个:资讯标题,资讯内容,资讯时间没法导入数据库中
寻求解决方案

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-8-23 17:14

沙发
bowieD 金牌会员 发表于 2017-8-23 15:18:13 | 只看该作者
本帖最后由 bowieD 于 2017-8-23 15:57 编辑

做了样例复制,xml中就会出现多个item对,所以这些标签会重复出现。一对item代表一个样例的内容。 资讯标题,资讯内容,资讯时间是底层标签,这些标签里面就是采集到的网页信息了。

1,如果想导入GooSeeker的云数据库,在会员中心的爬虫调度那里,选中一个抓取规则,点击调度链接,进入调度设置页面,可以看到“结果入库”,勾上。然后运行DS打数机,运行在爬虫群模式,就实现了自动入库。
2,如果要导入自己的数据库,抓取 结果文件是xml格式的,解析入库程序可以自己写一个,xml结构请参考《xml结构》
3,如果是这些重复的标签而无法导入数据库,可以把XML转换成Excel,做去重复处理。
举报 使用道具
板凳
shengchengx 金牌会员 发表于 2017-8-23 15:18:16 | 只看该作者
这个是因为做了样例复制,抓取了多条数据,所以表头会重复。
要么取消掉样例复制,每个xml文件存放一条数据,要么转换成Excel,每一行就存放的是一条数据
举报 使用道具
地板
Shuquan 中级会员 发表于 2017-8-23 15:56:23 | 只看该作者

不做样例复制,我遇到分页怎么解决

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
环境监测 中级会员 发表于 2017-8-23 16:05:17 | 只看该作者
Shuquan 发表于 2017-8-23 15:56
不做样例复制,我遇到分页怎么解决

多栏只有用样例复制,样例复制就会出现多个重复的,你转换成Excel格式的吧

举报 使用道具
6#
Shuquan 中级会员 发表于 2017-8-23 16:11:10 | 只看该作者
我现在应该写好程序采用xml导入数据库的,不会让我在重新协议个程序吧,这样的工作量太大了
寻求解决方案
举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-8-23 17:14:03 | 只看该作者
Shuquan 发表于 2017-8-23 16:11
我现在应该写好程序采用xml导入数据库的,不会让我在重新协议个程序吧,这样的工作量太大了
寻求解决方案
...

如果需要一条数据一个xml文件的话,那就再做一个下级规则,点击查看详情,进去抓取标题、时间和摘要就好了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-11 03:38