集搜客GooSeeker网络爬虫

标题: 瀑布流网页滚轮抓取无法清除第一条老数据 [打印本页]

作者: xiaopapachong    时间: 2023-6-1 11:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: Fuller    时间: 2023-6-1 11:40
我们正在测试这个任务,稍等一下
作者: gz51837844    时间: 2023-6-1 11:52
我测试了下你这个规则,我判断清除老数据是起作用的,主要是从下面3点判断:
1. 每次滚屏后新生成的文件,文件大小并没有一直增加,说明旧的数据清除有效
[attach]15842[/attach]
2. 我打开第1个文件和第2个文件比对了下,下图的第2个评论,在第一个文件里有,在第二个文件里没有,说明清除旧数据起作用了
[attach]15843[/attach]
3. 每次清除的时候并不是清除掉所有的内容,保留了第一条和最后一条,因为这样可以防止清除操作干扰原网页上的程序。详细说明见:爬wish等瀑布流网站时使用清除老数据功能


作者: xiaopapachong    时间: 2023-6-1 12:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: xiaopapachong    时间: 2023-6-1 12:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: Fuller    时间: 2023-6-1 13:07
打开清除老数据功能以后,会在采集完自动删除列表中的数据,只留第一和最后一条,但是,有些网页不允许这样做,一旦看到数据被清除了,就不加载内容了。遇到这种情况,就不要打开清除老数据。等导出数据以后,在excel中或者在你的数据库中自己用公式进行清除




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2