|
本帖最后由 bowieD 于 2017-8-23 15:57 编辑
做了样例复制,xml中就会出现多个item对,所以这些标签会重复出现。一对item代表一个样例的内容。 资讯标题,资讯内容,资讯时间是底层标签,这些标签里面就是采集到的网页信息了。
1,如果想导入GooSeeker的云数据库,在会员中心的爬虫调度那里,选中一个抓取规则,点击调度链接,进入调度设置页面,可以看到“结果入库”,勾上。然后运行DS打数机,运行在爬虫群模式,就实现了自动入库。
2,如果要导入自己的数据库,抓取 结果文件是xml格式的,解析入库程序可以自己写一个,xml结构请参考《xml结构》
3,如果是这些重复的标签而无法导入数据库,可以把XML转换成Excel,做去重复处理。
|
|
共 6 个关于本帖的回复 最后回复于 2017-8-23 17:14