二级抓取的问题

我是自己写了个网页,上面放了50个链接。二级抓取完成一次后,遇到两个问题,希望fuller帮忙解答。
第一,50个链接只有不到很少几个链接抓到了,其它链接都是空的。试了两次,一次抓了4个,一次6个,这是什么问题呢?
第二,再次加载之前作为一级抓取目标的二级网页时,各种无法定位,在点了一堆确定之后,映射全没了,要重新映射,这是什么问题?怎么避免呢?

二级抓取如何跳过失败线索

fuller,你在吗?
请问二级抓取发帖人主页时,常会遇到一些已经不存在的主页(可能被封杀了),这样的话datascrper 抓取时就卡住了,只能人工检查,手动抓取剩下的线索,请问有没有自动设置的方法,可以跳过连接超时或者已经不存在的线索呢?

DataScraper不会卡住

如果设置了AJAX选项,则会等待到超时,如果没有设置AJAX选项,则会加载完目标网页后判断出不符合抓取规则。都不会卡住。

但是,等待超时可能会花费比较长时间,那么可以选择两个方案之一:1)设置比较短的超时时间;2)选择一个被封杀了的网页,为其定义个主题名相同,辅名不同的信息结构,那么一遇到这类网页,就会用这个信息结构进行抓取

二级主题定义的抓取规则不合适

因为不知道您要抓取什么内容,所以无法具体提出建议,可以就以下方面进行检查
1,尽量使用FreeFormat映射,否则,可能会因为定位不准确而重新加载失败
2,重新加载失败后先不要再次映射,先点击MetaStudio菜单“文件”-〉“刷新DOM”,然后点击“分析页面”,如果这一次分析成功,说明不是以前映射的不对,而是应该设置AJAX选项
3,在定义的整理箱里面,至少为一个信息属性设置key特性
4,观察DataScraper执行时输出的日志,显示在窗口下部,如果出现Suitable data schema cannot be found,说明抓取规则不合适,如果什么都不出现,那可能是因为key特性没有设置

新浪微博二级抓取失败

自己写了一个网页,上面有几个网址(几个话题页的网址);
接着写了两个schema: weibo_huati_stock_list,weibo_huati_stock_p,目的是实现二级采集。

结果在本地的DataScraperWorks第一个schema抓取成功,第二个只抓取了一个网址对应的内容。

请指点。

检查两个主题的二级关系是否成立

先看第一个主题,在Clue Editor中是否有名字是第二个主题线索。

因为我看不到样本页面,所以无法加载这个信息结构进行检查

然后在DataScraper中,察看第二个主题的线索数

同样遇到上述问题,

同样遇到上述问题,第二级抓取只抓到了一个网页,第一个主题有第二个主题线索的名字,怎么解决?

先抓上一级主题

抓上一级主题就会为下一级生成线索。因为楼上说的主题名weibo_huati_stock_list指向一个内部网页,我没法检查原因

我抓取的是 http://www.zh

我抓取的是
http://www.zhihu.com/question/21509960
这个网页里回答问题的人,对每个回答进行评论的人。
第一个主题抓取回答问题的人,第二个主题抓取对回答进行评论的人。
抓取完第一个主题后,第二个主题的线索统计中start显示0。怎么才能成功抓取第二个主题里面评论的人呢?

两级的主题名分别是什么?

请告诉我主题名,我好查看您定义的信息结构

帮我看看,谢谢>

帮我看看,谢谢><

answer 和

answer 和 answer_comment
做了些改正,抓取answer_comment最后线索统计fetched显示1后不动了。
谢谢~

用户手册

翻页抓取的介绍材料参看:http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html

层级抓取的介绍材料参看:http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html

您定义的不是二级抓取

您定义的是翻页抓取,主题名不应该变

评论和回答的网页地

评论和回答的网页地址是一样的

我想想模仿采集淘宝

我想想模仿采集淘宝评论的那篇教程,采集http://www.zhihu.com/question/21509960 每个回答的评论人,例如,第一个回答有58个评论人,不需要分级吗?

不要模仿采集淘宝

知乎的页面结构简单明了,用翻页方法最好,主题名不变。另外,定义answer_comment的时候选择的样本页面不合适,没有“显示全部评论”这个按钮