翻页抓取股吧只能翻两页

我对http://guba.eastmoney.com/list,000632.html进行爬取,分别设置了相对线索和marker线索进行翻页(主题分别为:三木集团Test 和 三木集团Test_notRelativeClue ),但是datascraper都只能抓取两页的结果,请问这是为什么呢?
我的firefox版本是24,metastudio和datascraper也是对应的24_zh版本

股吧翻页抓取的方法

请参看我定义的主题:三木集团Test_fuller

最重要的修改是选择MetaStudio菜单“首选项”,选择“线索定位”那个tab,选中“偏好class”。再在Clue Editor工作台上点击ViewSCE按钮看到的翻页规则会有变化,定位到翻页超链接的XPath表达式变短了,没有了那些position()函数了,这样就会让翻页定位更有适应性。因为到第二页后,翻页区域的那些页码的超链接在网页上的位置有变化

翻页问题

刚刚又测试了几次,发现能翻10页左右了,直到出现Timeout to load page,请问这是由什么控制的呢?

翻页问题

谢谢Fuller,这么晚了还回复我的问题。
我试了您的主题,只能翻到第4页,而且第1页丢失了10几条数据,第4页只抓到20条数据。请问这是为什么呢?
另外,如何控制翻页的数量?

翻页数量控制

如果出现Timeout,表示在一定时间内,期望抓取到的信息没有被发现,如果人眼观察看到了需要的信息还出现Timeout,说明定义的抓取规则适应性太差,可以在MetaStudio的内嵌浏览器窗口中翻到那一页,使用菜单“文件”-〉“刷新DOM”,“分析页面”,看看到底是哪个信息属性映射不合理。

如果人眼观察看不到正确显示网页,那么可能是网络太慢或者目标网站太慢,可以将超时参数调高。如果是手工批量抓取,在DataScraper菜单“配置”-〉“超时时长”,单位是毫秒。如果是周期性自动抓取,那么在crontab.xml中配置,参看《周期性网页抓取调度文件》

在我回复这个帖子这段时间里,我的主题已经抓取到153页了,没有遇到第10页超时。

用我定义的主题做测试的时候,要修改主题名,Theme Editor和Clue Editor出现主题名的都需要修改,修改后重新上载。因为您对我的主题没有写权限

二级抓取+翻页

您好!在三木集团股吧里面,有一个帖子列表,点开帖子的URL有帖子的详细内容。我现在想抓取整个股吧的帖子的所有详细内容,也就是要翻页同时二级抓取。
我在主题“三木集团二级抓取Test”和“三木集团二级抓取Test_2nd”可以抓一个列表的所有帖子,但是发现主题“三木集团二级抓取Test”无法设置Marker线索和Relative线索。那要怎样才能实现我的需要呢?

没事了。。

没事了。。。新建一个clue就好了-_-|||

我再试试~

谢谢!!