5 10256

有關圖片下載~

rexwang 于 2019-12-6 21:55 发表 [复制链接]
此連結頁面,
https://rent.591.com.tw/rent-detail-8524370.html

照片共有14張,但只能下載到8張,
請問要如何才能下載到所有的照片
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-12-8 20:46

Fuller 管理员 发表于 2019-12-6 22:08:07 | 显示全部楼层
你做的规则名是什么?把名字发出来,我可以分析一下你的规则哪里有问题
举报 使用道具
rexwang 高级会员 发表于 2019-12-6 22:24:01 | 显示全部楼层
請問是任務名吗?
任務名 :房屋591第二級
举报 使用道具
Fuller 管理员 发表于 2019-12-6 23:01:41 | 显示全部楼层
rexwang 发表于 2019-12-6 22:24
請問是任務名吗?
任務名 :房屋591第二級

在一些图比较多的网站上,比如,电商这样的网站,还有这个网站,通常所有的图并不是一开始都显示出来,而是需要显示的时候才显示,比如,滚动到该它显示的时候,才显示。
在网页上,显示一个图是把图片网址赋予<img>的src。这种根据需要显示的图片,一开始src是没有的,等需要显示的时候才把图片网址赋予src。

在这个网站上,没有显示图片的<img>把图片网址放在lazysrc中。

这个网页一共有14个小图,下图,这14个小图放在14个li中
小兔20191206224746.png

点开第一个li,可以看到img的attributes有这些
src20191206224847.png

再点开最后一个li,可以看到img的attributes是不同的,没有src
lazy20191206224942.png

为了下载这种图,可以选用两个方案中的一个:

1,先做规则采集到图片的网址,用另一个规则下载图。就是两级采集。第一级规则统一采集lazysrc这个属性,而不采集src
注意:即使爬虫已经把图片网址从lazysrc采集到了,但是不能只是勾选“下载图片”就能把图片下载下来。因为GooSeeker并不是真的去下载图片,而是从浏览器的缓存中取图片,没有显示的是取不到的。

2,做一个点击动作,先把这14个li点击一遍,一点击li,这个li代表的小图就会显示出来,等点击完所有li后,浏览器中就缓存了所有图片,“下载图片”功能就有作用了


举报 使用道具
rexwang 高级会员 发表于 2019-12-8 11:24:48 | 显示全部楼层
本帖最后由 rexwang 于 2019-12-8 11:25 编辑
Fuller 发表于 2019-12-6 23:01
在一些图比较多的网站上,比如,电商这样的网站,还有这个网站,通常所有的图并不是一开始都显示出来,而 ...

1,先做规则采集到图片的网址,用另一个规则下载图。就是两级采集。第一级规则统一采集lazysrc这个属性Q:請問具體的步驟應如何進行?抱歉~我是新手正在摸索學習中~~~可以指導詳細操作步驟嗎?


2,做一个点击动作,先把这14个li点击一遍,一点击li,这个li代表的小图就会显示出来,等点击完所有li后,浏览器中就缓存了所有图片,“下载图片”功能就有作用了

Q:請問点击动作要如何做?可以請大師一個步驟一個步驟分享教學嗎?感激不盡


Q:另外我還有第三個問題?就是小圖下載下來之後,像素不足,放大很模糊,要如何能下載大圖呢?





举报 使用道具
Fuller 管理员 发表于 2019-12-8 20:46:49 | 显示全部楼层
rexwang 发表于 2019-12-8 11:24
1,先做规则采集到图片的网址,用另一个规则下载图。就是两级采集。第一级规则统一采集lazysrc这个属性Q: ...

这个教程讲解了怎样做连续点击:https://www.gooseeker.com/doc/article-288-1.html
一共有10几个小图,每个小图都放在li/a/img 中,做个点击动作,点击每个img就行
定位0191208204345.png
如上图,用这个xpath就能点击到所有小图
  1. //*[@id='show']//div[@class='thumbnails']/ol/li/a/img
复制代码
做点击动作的规则是第一级,点击后的规则是第二级,第二级可以用来下载大图。用大图的src作为抓取内容,勾上“下载图片”
点击20191208203649.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 03:28