Fuller's blog

怎样实现Javascript/AJAX动态网页抓取

网页抓取的目标是网页内容超链接,后者是网络爬虫(例如,定题网络爬虫和动态网页抓取工具DataScraper)能够持续运转的基础。

AJAX动态网页信息提取原理

考察网页信息提取软件工具包MetaSeeker的实现原理可以看出:MetaSeeker使用XPath和XSLT分析网页DOM并提取网页信息,虽然也可以使用一些字符串处理函数自定义XPath表达式,但是总体上说,与使用正则表达式分析HTML文档的方法相比区别十分明显。

如何抓取AJAX/Javascript模拟的超链接

网页上有大量的超链接,多数情况下显示成蓝色,而且有下划线,很好识别,点击它可以导航到其它网页,这是互联网冲浪的唯一途径。

没有翻页链接或按钮如何抓取网页内容

网页内容抓取软件工具包MetaSeeker拥有多项强有力的特性帮助用户大批量高效率地抓取网页内容。很多情况下,目标网页的内容分成多页进行显示,从V1.0版本开始,MetaSeeker就有高适应性的翻页抓取能力,无论是用超链接表示翻页还是采用javascript/AJAX进行翻页,MetaSeeker都一视同仁。

加载信息结构时修改网站内容采集规则

网站内容采集规则生成工具MetaStudioV4.1.1版本加载先前定义的信息结构时,如果发现某个信息属性的定位规则不正确(一般情况下,目标网站页面的结构变化会引起这种问题,虽然MetaSeeker采用多项专利技术尽力自主锁定目标网站页面的变化,但是变化十分巨大的情况无法自动识别),将弹出一个提示框:

如何使用XPath采集网站数据

网站数据采集软件工具包MetaSeeker从V4.0.0版本开始增加了多项自定义网站数据采集规则的功能,当用户需要更灵活地从网站上采集数据时,例如,参照页面上特定文字内容采集数据(就像使用正则表达式匹配文字内容),可以自定义XPath表达式甚至XSLT指令片断。

网站数据采集软件MetaSeeker视频演示即将发布

网站数据采集软件MetaSeeker自推出以来,受到广泛关注并应用在各种数据采集领域,例如,搜索引擎、移动互联网、数据挖掘、商业情报分析等,当前的用户使用出现了两极分化的状况,规模用户用熟了以后,完全被MetaSeeker的特性所征服,因为是无与伦比的高生产力的网站数据采集软件,然而,新用户感觉学习MetaSeeker似乎有点难,变成熟练操作员后可以几分钟定义一套网站数据采集规则,而且可以规模化、协同性操作,

什么是网页抓取自恢复功能

网页抓取软件工具MetaSeeker从V4.0.0版本开始,提供了两种周期性网页抓取功能:手工启动和自动启动。其中,手工启动方法是点击DataScraper界面上的主题列表上的鼠标右键弹出菜单排期,而自动启动是网页抓取和数据结构化工具DataScraper运行之初自动启动的,需要事先在周期性网页抓取指令文件中配置说明。

基于结构化数据交换平台的电子政务系统案例研究

我们在使用语义网络技术公开发布电子政务信息MetaSeeker确保电子政务和服务型政府网站向语义网络时代跨越两篇文章讲解了面向语义网络时代的结构化数据技术方法在建设下一代电子政务系统中的应用前景,以及怎样使用网页信息提取系统将非结构化内容转换成结构化数据以建立电子政务信息交换平台,还举了Data.gov

读爱帮网的法律声明看数据提取软件的法律问题

本站早在2008年就开始跟踪大众点评网诉爱帮网的案件,网络爬虫和数据提取软件涉及的法律问题一直争议不断,垂直搜索兴起后,这类法律问题更突出了,垂直搜索与普通搜索不同,一般使用数据提取软件和定题网络爬虫,将目标网站上的与主题相关的结构化内容提取下来,集成到自己的垂直搜索服务中,这与普通搜索为目标网站建立索引不同,著作权纠纷一直持续不断,尤其是包括

Syndicate content