|
原则是:首选整理箱中定义下载规则。
但是,如果没有静态网址,比如,A元素的href是一段javascript代码,那么就不能在整理箱中定义抓取内容,不得不用连续动作中的点击动作。
两者的重要区别是:
1,整理箱中的下载是可控的:如果整理箱中有样例复制,每个样例都有一个下载,那么所有的下载都完成以后才能去采集下一条网址。然而,点击动作是不可控的,点击动作执行以后就不管了,下载什么时候完成,爬虫是不管的,这样有可能会失控,当下载需要很长时间,爬虫有可能没有等待就去执行下一个网址的采集任务了。所以,要设置好网址间的等待,但是,无法精确设置。
2,整理箱中的下载会把文件名和存储位置直接写到采集结果文件中,这样只有一个xml文件,处理起来方便;而点击动作下载,会产生另外一个单独的描述文件,也是xml文件,存于DownloadDir文件夹。文件格式是:
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 1 个关于本帖的回复 最后回复于 2021-2-25 10:21