周期爬取论坛一个版面的问题

两级爬取:
ssq_byr_forum_kaoyan_list爬取版面帖子列表
ssq_byr_forum_kaoyan_post爬取每个帖子具体的文章列表

crontab.xml文件如下:

true
5

3600
false

ssq_byr_forum_kaoyan_list

ssq_byr_forum_kaoyan_list
false
100

-1
-1
false
0

ssq_byr_forum_kaoyan_post
false
100

-1
-1
false
0

没有周期提取啊,两级也没有连接起来。。。
单独运行ssq_byr_forum_kaoyan_post的时候翻页到第二页就停住了。。。

设置好抓取周期

你设置的周期是3600秒,那要等一个小时才能看到周期性抓取。

两级确实不是连在一起的,各级是各自执行的。翻页问题需要查找翻页规则失败的原因。

VallidateDelayedPage:Timeout to load the page

Fuller你好~
现在第一级抓取正确,然后接下来在抓取第二级的时候一直出现Timeout to load the page错误,这是为什么呢?
由于第二级一直超时,也没有看到周期提取第一级。。。

抓取过程正常

我将这两个主题转存到我们内部服务器上测试了,运行都很正常。您遇到timeout时,观察DataScraper的窗口,窗口能够放大,看看内嵌浏览器中是否显示了论坛网页,是不是因为论坛网页显示太慢造成的超时?刚才我测试了20个post主题的网页,没有一个失败的。

另外,抓取论坛通常不需要设置积极模式和延迟模式。不过,这样设置也没有影响,只是抓取速度慢些。

我的DataScraper窗口有显示内置浏览器

我的DataScraper窗口有显示内置浏览器,可以看到加载的页面,但是显示之后就不动了,然后等10分钟就超时了。
不知道在你那里测试的时候post主题的翻页有没有问题?

我们的论坛的内容有一些东西是用javascript生成的,所以设置了积极模式和延迟模式

我这边测试翻页很顺利

一个都没有失败,你能否用个别的网站先测试一下翻页功能是否正常,比如,用百度新闻搜索,做个翻页抓取规则,看看您的DataScraper版本是否正常。

我用的最新版本4.11.9的

datascraper_Win_FF12.x_zh