需要登录网站的内容抓取及向网站发布内容

你好,有两个问题想请教一下:
1.我要抓取目标网站内内容需要用户名登录,如抓取淘宝店中,我的订单记录,这个如何操作?
2.要自动给网站留言,不登录网站,直接向目标网站的某个页面,发送数据,这个功能MetaSeeker能实现吗?

自动登录

大部分网站不用自动登录功能,只需要用Firefox浏览器手工登录,登录状态就会记录下来,然后,运行DataScraper就会一直处于登录状态

MetaSeeker企业版也有自动登录功能,通常手工登录就够了。

自动发送功能现在不提供,可以定制开发支持这个功能

采集数据的文件格式

谢谢您的回复,以上功能我明白了,另外,通过DataScraper采集到的文件,只能以XML的格式保存吗?如果我要对这些采集后的数据进行处理,还要另外做一个XML解析处理,对吗?

采集结果文件解析

MetaSeeker按照大数据挖掘应用框架实现的,在ETL处理过程中负责(E)xtract部分,采集到的结果数据放在XML中,需要一个解析和入库程序负责数据清洗、格式转换、数据集运算等。

如果只需要处理几个主题的抓取结果,可以在网络上搜索免费软件或者自己定制开发一个程序。如果需要处理几百个上千个主题的抓取结果,可以购买我们的通用数据清洗和入库程序MetaCorpora