关于翻页爬取问题

您好!
最近在使用爬虫进行翻页抓取时发现不能抓到最后一页,有时少抓一页,有时少抓两页,而且翻页的内容不再是在一个XML文件中存储,而是一页就存一个XML。想请教您是定义的规则不对,还是用的版本需要升级?
抓取的主题名是ylpw,请您帮忙看看,谢谢!

翻页抓取网页

每翻一页就会生成一个XML文件,这是正确的。

翻不到低一般是抓取规则比适合,MetaSeeker采用FreeFormat技术,就是利用网页上的@class, @id作为标志,定位网页上的内容。选择这些标志的时候是有技巧的。在DOM树上,从当前这个需要抓取内容的DOM节点开始往父节点方向看,越靠近当前这个节点的FreeFormat标志越好,但是有些标志在网页上没有任何意义,只是作为CSS selector,如果选择不当,会影响抓取规则的适应性,MetaStudio允许人工确定选择FreeFormat的原则,翻页的规则是在Clue Editor工作台上定义的,用MetaStudio的菜单“配置”-〉“首选项”,选择“线索定位”那个标签,可以改变选择FreeFormat的原则,您可以尝试“优选class”试试