二级抓取的问题

Wed, 04/24/2013 - 20:44 — nicojoy

我是自己写了个网页，上面放了50个链接。二级抓取完成一次后，遇到两个问题，希望fuller帮忙解答。
第一，50个链接只有不到很少几个链接抓到了，其它链接都是空的。试了两次，一次抓了4个，一次6个，这是什么问题呢？
第二，再次加载之前作为一级抓取目标的二级网页时，各种无法定位，在点了一堆确定之后，映射全没了，要重新映射，这是什么问题？怎么避免呢？

Web信息提取

Sat, 05/11/2013 - 12:07 — yuzi881

二级抓取如何跳过失败线索

fuller，你在吗？
请问二级抓取发帖人主页时，常会遇到一些已经不存在的主页（可能被封杀了），这样的话datascrper 抓取时就卡住了，只能人工检查，手动抓取剩下的线索，请问有没有自动设置的方法，可以跳过连接超时或者已经不存在的线索呢？

Sat, 05/11/2013 - 14:41 — Fuller

DataScraper不会卡住

如果设置了AJAX选项，则会等待到超时，如果没有设置AJAX选项，则会加载完目标网页后判断出不符合抓取规则。都不会卡住。

但是，等待超时可能会花费比较长时间，那么可以选择两个方案之一：1）设置比较短的超时时间；2）选择一个被封杀了的网页，为其定义个主题名相同，辅名不同的信息结构，那么一遇到这类网页，就会用这个信息结构进行抓取

Wed, 04/24/2013 - 21:49 — Fuller

因为不知道您要抓取什么内容，所以无法具体提出建议，可以就以下方面进行检查
1，尽量使用FreeFormat映射，否则，可能会因为定位不准确而重新加载失败
2，重新加载失败后先不要再次映射，先点击MetaStudio菜单“文件”-〉“刷新DOM”，然后点击“分析页面”，如果这一次分析成功，说明不是以前映射的不对，而是应该设置AJAX选项
3，在定义的整理箱里面，至少为一个信息属性设置key特性
4，观察DataScraper执行时输出的日志，显示在窗口下部，如果出现Suitable data schema cannot be found，说明抓取规则不合适，如果什么都不出现，那可能是因为key特性没有设置

Mon, 05/06/2013 - 14:10 — wilsonli

新浪微博二级抓取失败

自己写了一个网页，上面有几个网址（几个话题页的网址）；
接着写了两个schema: weibo_huati_stock_list，weibo_huati_stock_p，目的是实现二级采集。

结果在本地的DataScraperWorks第一个schema抓取成功，第二个只抓取了一个网址对应的内容。

请指点。

Mon, 05/06/2013 - 14:22 — Fuller

检查两个主题的二级关系是否成立

先看第一个主题，在Clue Editor中是否有名字是第二个主题线索。

因为我看不到样本页面，所以无法加载这个信息结构进行检查

然后在DataScraper中，察看第二个主题的线索数

Mon, 10/28/2013 - 22:33 — 1053002922

Tue, 10/29/2013 - 10:01 — Fuller

GooSeeker