练习4:AJAX类网页的信息提取
下一页
 
  步骤一:载入网页。
 
【说明】:以采集"北京公交网的首页新闻"(AJAX技术)为例,示例我们的提取流程。

【实际操作】
1北京公交网的首页新闻提取为目的,导入网址。
2 命名主题、添加相关说明。
3 勾选。以使下方"浏览器"处于反选节点状态。
4 点击:目标网页正中位置,"公司新闻"栏目下的具体新闻标题中的首条,以反选其节点。
5 弹出错误提示框:不能找到对应的节点。

无论是静态网页还是服务器动态网页(例如,PHP、JSP、ASP等),下载到浏览器后都是HTML文档。但采用AJAX技术的网页内容,往往在主页面打开后仍需调用javascript函数或代码段,这样就影响了已有DOM树的结构,从而不能一次性反选出来。
本例的方法适用于:
1) 加载完HTML网页后,仍有动态内容生成。
2) 使用Javascript函数(例如,setTimeout或者setInterval)周期性刷新网页内容的页面。

Copyright(c) 2007-2010, Fuller Hua. All Rights Reserved.