集搜客GooSeeker网络爬虫

标题: 集搜客dom 窗口的后面 就是就 xml文档解析器吧? [打印本页]

作者: Automobile86    时间: 2016-6-22 22:42
标题: 集搜客dom 窗口的后面 就是就 xml文档解析器吧?
集搜客dom 窗口的后面 就是就 xml文档解析器吧?
生成的数据规则 就是xpath语句?
此外请问网页中的xml文档保存在哪,我们能够直接看到吗?还有,它和html文档有什么关系呢?
请大神指点,谢谢~

作者: Fuller    时间: 2016-6-22 23:15
前两问的答案都是“是”。

你说的xml文档就是抓取结果吗?抓取结果存在DataScraperWorks目录下
作者: Automobile86    时间: 2016-6-23 11:19
Fuller 发表于 2016-6-22 23:15
前两问的答案都是“是”。

你说的xml文档就是抓取结果吗?抓取结果存在DataScraperWorks目录下 ...

请问 网页中的xml文档(非咱们用集搜客抓取的)保存在哪,我们能够直接看到吗?

还有,xml文档和html文档(这个东西是可以通过浏览器直接看的)有什么关系呢?

感谢指点~
作者: Fuller    时间: 2016-6-23 11:30
Automobile86 发表于 2016-6-23 11:19
请问 网页中的xml文档(非咱们用集搜客抓取的)保存在哪,我们能够直接看到吗?

还有,xml文档和html文 ...

xml和html都是普通的文本文件,可以放在硬盘里面。如果你已经拿到了xml文件,就不要抓了,直接存入数据库或者导入excel就可以了。

xml是可以用浏览器来看,但是与html是不同的,可以百度一下看看




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2