跳转网页的提取

你好,最近遇到这样一个问题:访问一个要提取内容的最终页时,系统都会跳转到一个中间提示页,然后延迟500毫秒,再跳转回最终页,这样的情况该如何提取呢?

样本页面是哪一个

可以将样本页面贴出来,具体研究一下。我估计可以用AJAX提取模式“延长模式”,能够等待比较长时间

谢谢

服务器上有个redplus_test的schema,在进行内容深度提取时,产生的redplus_test_info不能定义规则,老提示:The location has been changed,so the mapping makes no sense(工作台发生变化,操作无意义)

麻烦看看,谢谢!!

跳转会造成这种情况

如果在theme list工作台上识别redplus_test_info,开始加载了一个网页,但是马上跳转了,MetaStudio以为是认为的网页改变,结果在工具条上会显示一个红色的横杠(正常情况下是绿色的勾),在这种情况下,再定义信息结构,就会提示The location has been changed。

遇到这种情况,就不用“识别”功能,而是,新运行MetaStudio,并在URL中输入样本页面的URL,此时工作台是空的,无论怎样跳转,都不会显示红色的横杠。

这样不能进行深度抓取

抓单一页面没有任何问题,可如何进行所有信息的自动抓取呢?(前面redplus_test中的url是自己构建的目标页的url规则)

深度网页信息抓取应该不受影响

第一个层次抓取网页URL,给它们命名一个主题,然后选择其中一个作为样本页面定义深一层的信息结构,此时,虽然感觉是为上一层抓到的URL定义信息结构,实际上是为跳转后的网页定义信息结构。抓取时DataScraper也不知道是否跳转了,如果设置“延长模式”,DataScraper一直等待到一个符合信息结构的网页,或者超时。

能否帮我建立一个demo

能否帮我以http://www.coolguo.com/wjh/test/test.html上的链接为线索,抓取里面的的一个字段信息(假设就选:价格)?

谢谢

网页跳转后怎样抓取信息的例子

我在你的redplus_test基础上做了一点修改,重新命名为test_redirect,它的下一层主题名是test_redirect_info,在MetaStudio的“配置”菜单上设置“延长模式”。

可以深度抓取。该网站似乎有可疑代码,杀毒软件总是报警。但是不影响连续抓取。

非常感谢

能告诉我你改了什么吗?是直接新建一个主题,然后跟前面的索引产生的主题同名吗?

跟定义普通网页的抓取规则一样

就是选择MetaStudio菜单“配置”-〉“延长模式”,关于这个问题,我总结一段文字进行详细解释

已解决

一直对metastudio只是机械式的学习,今天恍然大悟,真是个好东西

总结了一篇文章

谢谢,一直在等你。。。

马上看