集搜客dom 窗口的后面 就是就 xml文档解析器吧?
生成的数据规则 就是xpath语句?
此外请问网页中的xml文档保存在哪,我们能够直接看到吗?还有,它和html文档有什么关系呢?
请大神指点,谢谢~
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-6-23 11:30

沙发
Fuller 管理员 发表于 2016-6-22 23:15:20 | 只看该作者
前两问的答案都是“是”。

你说的xml文档就是抓取结果吗?抓取结果存在DataScraperWorks目录下
举报 使用道具
板凳
Automobile86 中级会员 发表于 2016-6-23 11:19:25 | 只看该作者
Fuller 发表于 2016-6-22 23:15
前两问的答案都是“是”。

你说的xml文档就是抓取结果吗?抓取结果存在DataScraperWorks目录下 ...

请问 网页中的xml文档(非咱们用集搜客抓取的)保存在哪,我们能够直接看到吗?

还有,xml文档和html文档(这个东西是可以通过浏览器直接看的)有什么关系呢?

感谢指点~
举报 使用道具
地板
Fuller 管理员 发表于 2016-6-23 11:30:16 | 只看该作者
Automobile86 发表于 2016-6-23 11:19
请问 网页中的xml文档(非咱们用集搜客抓取的)保存在哪,我们能够直接看到吗?

还有,xml文档和html文 ...

xml和html都是普通的文本文件,可以放在硬盘里面。如果你已经拿到了xml文件,就不要抓了,直接存入数据库或者导入excel就可以了。

xml是可以用浏览器来看,但是与html是不同的,可以百度一下看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 23:58