怎样摘取维基百科上的内容

Thu, 05/27/2010 - 21:05 — Fuller

我能够一个一个网页摘取内容，但是不能选定一个网页作为样本，应用到另外一个网页。如：http://en.wikipedia.org/wiki/Boston_Celtics，右边的信息盒内容和http://en.wikipedia.org/wiki/Houston_Rockets 信息盒内容相仿，我该如何使用其中一个的样本运用到另外一个？而不是手工操作另外一个？

MetaSeeker工具包

Thu, 05/27/2010 - 21:10 — Fuller

先找到列表页或者采用模板套用方式

一个一个网页作为样本分别定义信息结构并生成摘取规则当然是可以的，但是，这样做很费时。MetaSeeker根据信息提取线索提取网页内容，一个线索对应一个网页的URL地址，那么，如果我们能够成批的生成线索，就可以高效地从维基百科上将大量网页的信息盒内容摘取下来。总之，我们应该找到一种快速生成线索的方法。

假设当前制作的主题名为A。

点击http://en.wikipedia.org/wiki/Boston_Celtics 网页上的某个categories（位于网页下部，维基百科的每篇文章都属于一个或者多个类，我们期望同一类里面的网页有相同的结构，即都有信息盒）看到一个列表网页，再假设点击这个列表的链接进入的网页都有与A相同的信息结构

那么，

为列表网页定义信息提取主题B，专门提取列表项的超链接（也就是所谓的线索），超链接的主题是A。

这样，先提取主题B，就会获得很多主题A的线索，然后提取主题A，达到目的。

以上假设所有类似网页都集中在某个列表上，如果不是，就得一个个单独定义信息结构了。当然不必为每个网页从一个空白工作台开始，而是采用一种像模板套用的方式：

将http://en.wikipedia.org/wiki/Boston_Celtics 的信息结构定义好并上载服务器后，在MetaStudio上加载 http://en.wikipedia.org/wiki/Houston_Rockets 网页，点击菜单“文件”-〉“分析页面”，如果没有提示xx信息属性无法定位，则表示信息结构完全符合，点击工具条上的 Instruction按钮，为该网页生成一个线索，一次类推，加载每一个网页并上载信息提取指令文件。

Sat, 05/29/2010 - 14:34 — blacke

这种规则模板套用的方式能否再讲解清楚一些呢？

我对http://blog.sina.com.cn/bqxiong这个页面的全部博文信息做好提取规则定义，正常完成了我需要的当页6篇博文的阅读、评论、收藏等信息提取。现在希望换另外一个网页http://blog.sina.com.cn/cctvpinglun，采用同样规则提取信息，两个网页的结构是一致的。

在Metastudio上加载http://blog.sina.com.cn/cctvpinglun后，点击“文件—>分析页面”，首先会报错：“请检查Theme Editor和Clue Editor工作台上的主题名。
也许需要重新命名。”重新对theme editor命名之后，再次操作“文件—>分析页面”，依然报错：“下载信息结构：央视博文信息.default.meta.xml失败，原因：
Fail to find the data schema”。

直接看来，两个博文网页并没有什么区别，报出的提示也并不是说xx信息无法定位，这是什么原因呢？

Sat, 05/29/2010 - 14:43 — Fuller

第一个提示不是错误

“请检查Theme Editor和Clue Editor工作台上的主题名“只是提示，表示信息结构完全符合，只是提示用户是否需要修改主题名，用另外一个名字，如果不改名的话，信息结构使用的网页就变成了http://blog.sina.com.cn/cctvpinglun，也就是说将http://blog.sina.com.cn/bqxiong覆盖了，这样覆盖没有不好的影响，因为还是会另外生成一个信息提取线索，两个线索不会覆盖。

重新命名主题后就不要再执行”文件-〉分析页面“了，直接点击工具条上的Instruction或者Schema按钮存储即可。

如果在出现“请检查Theme Editor和Clue Editor工作台上的主题名“之前显示”xxx属性无法定位“，那才是错误信息。

Sat, 05/29/2010 - 14:57 — blacke

确实是多做了操作了

呵呵，这么快的回复！因为我也是在线等的，所以非常非常感谢！

嗯，这确实不是报错信息，我不执行分析页面，直接存储就可以了。

这两个看起来一样的页面，定义的信息提取规则竟然还不能直接适用，我继续调整一下。thanks.

GooSeeker