抓取网易双色球数据总是不能成功,郁闷!

参考网页:
http://caipiao.163.com/hit/g_2013061723CP47349645.html
想要获取该用户所有方案的前区数据,涉及到AJAX和翻页,Metastudio配置还算正常,翻到每一页MAP-->testthis都没有问题,但是一到datascraper提取就不行,第一次在DataScraperWorks目录下有XML生成,但是没有后续的翻页数据,删除掉生成的XML文件重新提取,竟然连一个XML文件都没有生成,郁闷!我的方案名称是jctest,麻烦fuller帮忙看一下。

我想要从163/QQ/新浪/360提取每期合买跟单的公开方案作为我的选号的筛选条件,若中500万,我资助GooSeeker50万!(鼓掌!!)再次感谢Fuller们的分享精神!!

未生成XML是第二次提取时没有激活所致,但是还是无法翻页生成后续的XML

未生成XML是第二次提取时没有激活所致,但是还是无法翻页生成后续的XML

抓取双色球信息需要AJAX选项

在MetaStudio上设置AJAX选项,即选择菜单“配置”-〉“延长模式”,“积极模式”

在Clue Editor工作台上没有太大必要为翻页线索设置key特性

DataScraper抓取时需要一个技巧:选择菜单“配置”-〉“定时器触发”,因为这个AJAX网页总是不断动态修改,永远停不下来,所以,需要设置定时器触发,以提高抓取速度,如果不设置,每翻一页都要等待超时。

总结一下,关键点是MetaStudio设置AJAX选项

祝你早日中得500万,赞助给GooSeeker的50万必将MetaSeeker的功能更上一层楼。鼓掌!!

中断翻页得方法

经过测试,这个网页即使翻到最后一页,上面还有“下一页”,所以就停不下来了,可以在crontab.xml设置depth参数,比如,50,那么翻50页就会停止

crontab.xml中的dupRatio可否解决此问题

翻页抓取中,dupRatio判断重复的具体依据是什么?可否给出详细解释??为解决上述问题(翻页到最后一页仍然有“下一页”字样),我想把dupRatio设置成1(即一发现有重复即停止翻页),妥否??

dupRatio适用的情况

如果是层级抓取,还有下一层,dupRatio才起作用。如果没有下一层,这一层只抓取内容,不抓取线索,就不起作用。

哎,这个就很麻烦了,具体页数很难预先估计

,因为要自动化采集大量的类似双色球投注方案,每个方案具体涉及的页数很难预先估计。估计大了,造成页面数据重复抓取;估计小了,造成采集数据遗漏。哎~,有无更好的办法?

这个问题你解决了吗

我也遇到了同样的问题,你找到了解决方法了吗?

需要定制开发

如果要完美解决这个问题,需要专门为这个网站定制开发程序,专门解决这个特殊的翻页问题