读了一则新闻Easyjet takes legal action against screen scraping,是因为非授权的信息提取(screen scraping)引起的纠纷,这两年已经看到多起了,而且都是在航运领域,但是,一直没有想明白,为什么会这么集中到这个领域?
读了一则新闻Easyjet takes legal action against screen scraping,是因为非授权的信息提取(screen scraping)引起的纠纷,这两年已经看到多起了,而且都是在航运领域,但是,一直没有想明白,为什么会这么集中到这个领域?
Comments
Ryanair在网页信息提取官司中败诉
Ryanair vs. eDreams 的官司已经宣判,Ryanair败诉,这只是Ryanair发起的诸多官司中的一起,有网友评论:Ryanair在西班牙被判败诉,是否会将西班牙变成网页信息提取的天堂?
为什么使用爬虫而不使用网站的API
实际尝试建立垂直搜索或者其它内容汇聚网站后找到了这个问题的答案,原因是网站发布的API提供的信息难于满足要求。例如,最近建立了一个外包项目/威客项目汇聚和搜索服务,很多目标网站都有项目发布途径,例如,通过RSS或者API,本来这些途径更方便、及时,但是实际使用以后,发现,一个项目中包含的信息字段可能不满足自己的要求,需要到其它网页上获取,因此,定制爬虫是少不了的。
至于为什么这么多关于航运信息提取的新闻,是因为做旅游领域的垂直搜索或者信息汇聚的盈利前景很好。
这个领域好像持续被
这个领域好像持续被关注,刚看到一则新闻Ryanair come around to scrapers记载了Ryanair公司对信息提取者的态度变化的过程,蛮有意思的。
又一起关于信息提取的诉讼案件
仍然是Ryanair公司提起的,同上一个报道不一样,这一次Ryanair态度好像十分坚决,而且不光向信息提取宣战,而且还将矛头指向垂直搜索。
Ryanair suggested that it was stepping up its campaign against vertical search engines.