信息提取

Google文档如何抓取页面内容

Google文档的用户越来越多,家庭用户往往看中它的免费,买一套MS office还是要花一笔钱的,商业用户往往看中它的协同编辑能力。例如,我曾经使用它与多个不同地区的合作者一起进行了一次互联网营销活动,例如,一起制定营销计划、一起准备营销传播材料、一起记录营销计划执行结果,好像大家就做在一个办公室,使用同一块白板,进行头脑风暴,指挥和执行产品营销活动。

语义网络产品竞争性分析

本文从分析Factual的产品特性入手,对比分析几个主要的语义网络产品的竞争状况。Factual的创始人Gil Elbaz是赫赫有名的Google AdSense技术核心的发明人,估计在将该技术卖给Google时收入了一大笔。

周期性网页抓取

负责网页抓取的网络爬虫(网络蜘蛛)一般需要周期性地(重复地)爬行网页,搜索引擎的网络爬虫重复爬行网页的目的是发现网页内容是否发生了改变,如果改变了,需要及时地修改索引库,为了提高工作效率,重复爬行的周期需要用一个比较复杂的算法计算出来,例如,自适应的算法能够根据目标网站的内容更新的频度确定什么时间再次抓取网页。

网页抓取工具软件增强

网页抓取/数据抽取/信息提取软件工具包MetaSeekerV4.0.0在线版已经发布,网页抓取精度和适应性大大提高,此前的版本,网页抓取的数据抽取规则是完全自动生成的,用户除了通过数据映射、FreeFormat映射和样例复制品映射操作指导MetaSeeker生成数据抽取规则以外,并不能手工编写某写信息属性(网页内容片断)的数据抽取规则。

使用语义网络技术公开发布电子政务信息

每天,政府各部门都要向互联网发布大量信息和各种数据,建设透明政府和服务型政府需要有效的发布和共享信息的技术手段和平台,并且应该鼓励公众和商业团体使用和重用政府发布的信息,进行聚合、关联和整合,以便更有效地提供公共服务。

MetaSeeker确保电子政务和服务型政府网站向语义网络时代跨越

电子政务以及服务型政府网站已经建设了多个阶段,例如,第一阶段、网上发布政务信息;第二阶段、网上信息非实时交互,主要提供表格和邮件方式;第三阶段、网上办事服务,可以下载表格,进行简单的流程操作(参见谈“E告”与电子政务、政府门户网站建设的创新)。

使用Python实现的网页内容抓取和网络爬虫软件工具

  • Scrapy是开源的用Python编写的屏幕抓取和网络爬虫(网络蜘蛛)软件框架,从Scrapy at a glance一文可以看出,Scrapy的爬行目标需要指定,网页内容抽取采用了XPath表达式,具有聚焦爬虫的特点

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

使用MetaSeeker网络蜘蛛建立暗网(deep web)搜索

搜索引擎如何对付“暗网”用详尽的数字说明暗网(dark web, deep web)有多大,还解释了巨头们(例如,谷歌(google),百度(baidu),雅虎(yahoo))怎样发掘暗网中的信息。Dark Web ---- 万维网正在变暗?全面罗列了哪些内容属于暗网内容,暗网的内容类别很多,都适合发掘吗?

用XSLT实现网页内容抓取软件

此前,网页抓取/数据抽取/信息提取工具包MetaSeeker为什么没有使用正则表达式提取内容?一文对比了DOM + XPath + XSLT 和正则表达式应用在提取网页数据信息和屏幕抓取领域的优缺点,重点说明了采用前者的优势,毫无疑问,采用前者编程成本低很多,有大量的可重用的第三方程序库或者软件模块供集成,而且做出来的数据抽取规则适用力很强。

观察语义搜索引擎的走向

采用网页抓取/数据抽取/异构数据对象搜索软件工具包MetaSeeker的搜索引擎SliceSearch建设的威客任务、招标项目、外包项目搜索引擎上线几个月了,用户点击量逐日上升。

Syndicate content