Ajax抓取案例-中国专利网cnpatent

中国专利网cnpatent上面的专利信息是用AJAX技术动态显示的,比如样本页面 http://www.cnpatent.com/Show_Zl_Info.asp?ipc=A63B ,查看其html源代码,没有需要的文字内容,文字内容是用javascript动态加载的。就这个案例,我们进一步讲解AJAX抓取技巧。定义的信息结构主题名是demo_cnpatent_ajax。

注意1:本文并不是基础教程,如果您对MetaSeeker的操作方法并不熟悉,建议按照章节顺序阅读MetaSeeker速成手册

注意2:随着时间的推移,目标网站的网页结构可能改变,导致原先定义的信息结构失效,您在加载本文的信息结构的时候如果看到失效提示信息,请参看《网页抓取规则失效怎么办》



1, 用MetaStudio定位节点

为了定义抓取规则,首先需要将这个样本页面加载到MetaStudio的浏览器中,然后进行数据映射和FreeFormat映射。但是,刚加载好这个网页,打开MetaStudio的反向选择功能(参看抓取当当网的案例,在第三步讲解怎样使用反向选择功能),在浏览器上点选网页内容时,会弹出一个对话框,显示如下信息

   Error: Cannot find the node


图1

这个提示说明网页内容是后加载的,需要点击MetaStudio菜单“文件”-〉“刷新DOM”,刷新后再次反向选择,就能看到MetaStudio成功定位到一个节点。



2,定义抓取规则

刷新DOM后,定义抓取规则的过程就与其它网页没有区别了,在此不再赘述。



3,指定AJAX抓取模式

前面多篇教程已经讲过AJAX抓取模式:延长模式和积极模式。要抓取这个网站也需要设置这两个模式。