关于天涯论坛抓取规则问题

首先非常感谢fuller给网友的耐心回答,真的好感激!
在抓取天涯论坛中,我遇到了一下几个问题,请求fuller给予指点:
1. 一个论坛标题下的每个页面的帖子好像不能用同一个规则抓取,我把每页第一条和每页剩下的部分命名两个规则来抓取,结果在每页第一条用相对线索抓取正常,但是它涉及的纵向抓取(info抓取回帖人主页的相关信息),就只能抓一页了,在纵向爬行的线索统计里也只显示有1条,应该是很多条的啊,请问这是怎么回事呢? 我试了两遍 还是不行耶。我上载的主题名是pingan-t*
2. 上次看到论坛里 有朋友问断点续抓的问题,记得当时说可以用info线索,产生下一页的新线索,请问这样具体怎么做?如果,我同时还用到info来做纵向爬行呢,是不是这种情况下就不可行了?

天涯抓贴

fuller,您好,最近遇到了一个新问题,我如果想在同一页面的不同板块分别抽取信息,请问怎么做呢?比如下面这个网址,我想把此人已发(回)帖子list一次性全提取出来,http://www.tianya.cn/18592252/bbs,我想可以建立多个整理箱在同一主题下抓取的,分别做映射,可是尝试中报错,主要是分区中的list用样例复制品还是format映射都出问题,请问有什么解决办法吗?
报错 error:property no.1 should be mapped from either a freeformat mark or a data snippet!

天涯抓取方法

我看了这个网页,里面有几个板块,“她发表的帖子”,“她回复的帖子”,我用两个整理箱分别抓取可以,主题名是tianya_test,我为两个整理箱的信息属性都设置了key特性,如果抓取另外一个网页,他可能没有回复的帖子,信息结构就不适合了,所以,需要将key特性设置的不要那么多,但是也不能没有,否则无法使用DataScraper的加速模式。

如果是企业版,就比较好处理了,“她发表的帖子”,“她回复的帖子”两个板块的DIV的@class分别等于pub_list和r_pub_list,只要通过企业版的接口,将自动生成的抓取规则稍微调整下就可以了,让他同时检查pub_list和r_pub_list两个值

谢谢fuller的详细解答

谢谢fuller的详细解答! 最近两天根据您的建议尝试了新方法,结果很满意,十分感谢您~
还有一些疑惑:
1. 在抓取热帖时,用翻页的方法只生成一条线索,能不能每页都产生一个线索呢?这样可以认为控制抓贴时间。我是新手,不知fuller能不能介绍一些套用模板规则等方法啊。
2. 已经成功抓取用过的线索以后还可以再次利用吗?
3. 在交流区还看到朋友们多次提到crontab.xml,请问这个文件是自己建立的吗?我在相关文件夹里没找到啊。如果要3层抓取,在crontab.xml中设置多线程来抓取,这方面有没有指导的学习资料啊,可以的话,麻烦您给个链接啊
4. 不太明白线内线索和非线内线索有什么区别呢

抓取天涯论坛的解答

1,在Clue Editor工作台上,不要勾选inthread那个复选框,就会为翻页线索各自存一个线索。但是有些网站不行,如果网站翻页用js代码实现的就不能这样存

2,如果想再利用,需要用crontab.xml中的renewClue来重新激活。

3,crontab.xml需要手工创建,必须是符合标准的XML文件,创建好以后用Firefox打开看看,如果不是标准的,会提示出错。参看周期性网页抓取调度文件,拷贝下来的时候要主要不要将非法字符拷进来,否则Firefox打不开

4,参看线索分类

天涯论坛抓取方法