你好,有两个问题想请教一下: 1.我要抓取目标网站内内容需要用户名登录,如抓取淘宝店中,我的订单记录,这个如何操作? 2.要自动给网站留言,不登录网站,直接向目标网站的某个页面,发送数据,这个功能MetaSeeker能实现吗?
大部分网站不用自动登录功能,只需要用Firefox浏览器手工登录,登录状态就会记录下来,然后,运行DataScraper就会一直处于登录状态
MetaSeeker企业版也有自动登录功能,通常手工登录就够了。
自动发送功能现在不提供,可以定制开发支持这个功能
谢谢您的回复,以上功能我明白了,另外,通过DataScraper采集到的文件,只能以XML的格式保存吗?如果我要对这些采集后的数据进行处理,还要另外做一个XML解析处理,对吗?
MetaSeeker按照大数据挖掘应用框架实现的,在ETL处理过程中负责(E)xtract部分,采集到的结果数据放在XML中,需要一个解析和入库程序负责数据清洗、格式转换、数据集运算等。
如果只需要处理几个主题的抓取结果,可以在网络上搜索免费软件或者自己定制开发一个程序。如果需要处理几百个上千个主题的抓取结果,可以购买我们的通用数据清洗和入库程序MetaCorpora
自动登录
大部分网站不用自动登录功能,只需要用Firefox浏览器手工登录,登录状态就会记录下来,然后,运行DataScraper就会一直处于登录状态
MetaSeeker企业版也有自动登录功能,通常手工登录就够了。
自动发送功能现在不提供,可以定制开发支持这个功能
采集数据的文件格式
谢谢您的回复,以上功能我明白了,另外,通过DataScraper采集到的文件,只能以XML的格式保存吗?如果我要对这些采集后的数据进行处理,还要另外做一个XML解析处理,对吗?
采集结果文件解析
MetaSeeker按照大数据挖掘应用框架实现的,在ETL处理过程中负责(E)xtract部分,采集到的结果数据放在XML中,需要一个解析和入库程序负责数据清洗、格式转换、数据集运算等。
如果只需要处理几个主题的抓取结果,可以在网络上搜索免费软件或者自己定制开发一个程序。如果需要处理几百个上千个主题的抓取结果,可以购买我们的通用数据清洗和入库程序MetaCorpora