某网站的抓取

你好,又来麻烦了,呵呵。今天在抓取一个网页的时候发现此网页的内容不能全部抓取下来,只能抓取部分,网站链接为http://www.365zn.com/mrl/mrl_A.htm,我先要把此网站下地所有人名抓取下来,但是发现只能抓取一行或者一列,不能整个抓取下来,我写的demo为jutirenming,谢谢指教。

要用嵌套的整理箱

不妨在"行"这个信息属性的外层或者内层再增加一个信息属性, 而且是一个容器节点, 即具有子节点的信息属性.

这样变成: 第一层是 行; 第二层是 列; 第三层是 具体的信息

用两行作为样例为"行"做样例复制品映射, 用一行中的两个人名作为样例为"列"做样例复制品映射.

理论上可以嵌无数套, 用于抓取多维数据. 这就是MetaSeeker采用树状整理箱的原因. 从V3开始不再采用以前的二维整理箱了