需要登录后才能查看的页面,GooSeeker能采集吗?

如题,有些论坛需要登录后,才能查看相关板块,请问这样的页面也能采集吗?

另外可以做到即时采集吗?比方说用户在我网站上查询,我再去其他站上抓取。。。。

怎样即时采集网站内容

MetaStudio和DataScraper仅仅是用于网站内容采集的基础工具,如果需要实现即时采集需求,需要做一些定制方案,例如,监控电子商务网站进行竞争性商品定价,也许这个方案仍然不够即时,要求最高的就是用户发起一个查询,则即刻采集目标网站的内容并混搭出一个内容呈现界面来给用户看。但是,即时度越高,运营成本越高,定制开发的难度越大,这种即刻采集需要深层次集成MetaSeeker的底层技术

即时抓取

其实各个脚本语言都有相关的页面抓取函数,但遇到有一些特殊情况,比方说:远程抓取一个查询页面,可这个查询页面总是来个延迟跳转,这样就抓取不到最终的内容,只能看到中间那个所谓的“正在查询”的提示信息。。。。。。。。。。。。。

网页跳转有点复杂

MetaSeeker运行在客户端,是浏览器的扩展,它就不用关心HTTP跳转,还有一种看起来像跳转,实际是页面中通过某个Javascript代码实现的新内容刷新,MetaSeeker的抓取规则里面有多种等待和加载状态判别模式,可以利用。

这种方案有个缺点,每台计算机的抓取速度提不高。用其它编程语言从目标网站通过HTTP Get目标HTML文档的方式可以做得很快,但是,很多网页内容又难于抓取到。

网站登录有很多方式

网站登录有很多方式:

  • 提交HTML Form的方式,这是大部分网站采用的
  • 通过HTTP Basic鉴权和认证的方式,安全级别更高
  • 通过HTTP Digest鉴权和认证的方式,安全级别进一步提高
  • HTTPS通道,加密通道,安全级别最高
MetaSeeker利用了Firefox的安全管理器,所以,MetaSeeker并不关心用了哪种登录方式,一视同仁。如果目标网站需要登录,那么可以在Firefox浏览器中先访问一次这个页面,登录后,再运行DataScraper或者MetaStudio,他们就不需要再次登录了,直接从安全管理器中获得身份信息。

无法处理的情形:HTTP登录有效期是可控制的,上面的信息提取方案都是假设登录的有效期是一个会话(session)或者比这更长的时间,例如,只要浏览器不关闭就总有效,或者多少天有效,甚至长期有效。但是,如果有效期很短,只对当前网页有效,那么每访问一个网页就得登录一次,此时DataScraper就没法自动提取了。当然,实际网络上几乎没有这种网页,因为用户体验很差。

谢谢,的确,MetaSeeker

谢谢,的确,MetaSeeker并不关心用了哪种登录方式,一视同仁。