集搜客GooSeeker网络爬虫
标题:
瀑布流网页滚轮抓取无法清除第一条老数据
[打印本页]
作者:
xiaopapachong
时间:
2023-6-1 11:04
提示:
作者被禁止或删除 内容自动屏蔽
作者:
Fuller
时间:
2023-6-1 11:40
我们正在测试这个任务,稍等一下
作者:
gz51837844
时间:
2023-6-1 11:52
我测试了下你这个规则,我判断清除老数据是起作用的,主要是从下面3点判断:
1. 每次滚屏后新生成的文件,文件大小并没有一直增加,说明旧的数据清除有效
[attach]15842[/attach]
2. 我打开第1个文件和第2个文件比对了下,下图的第2个评论,在第一个文件里有,在第二个文件里没有,说明清除旧数据起作用了
[attach]15843[/attach]
3.
每次清除的时候并不是清除掉所有的内容,保留了第一条和最后一条,因为这样可以防止清除操作干扰原网页上的程序。详细说明见:
爬wish等瀑布流网站时使用清除老数据功能
作者:
xiaopapachong
时间:
2023-6-1 12:02
提示:
作者被禁止或删除 内容自动屏蔽
作者:
xiaopapachong
时间:
2023-6-1 12:03
提示:
作者被禁止或删除 内容自动屏蔽
作者:
Fuller
时间:
2023-6-1 13:07
打开清除老数据功能以后,会在采集完自动删除列表中的数据,只留第一和最后一条,但是,有些网页不允许这样做,一旦看到数据被清除了,就不加载内容了。遇到这种情况,就不要打开清除老数据。等导出数据以后,在excel中或者在你的数据库中自己用公式进行清除
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2