12 23211

有无视频,图片数量抓取

DuoRuaiMi 于 2018-7-30 11:09 发表 [复制链接]
2.PNG 要抓取主页这个部分有无视频,图片展示数量怎么做
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2018-8-20 15:47

Fuller 管理员 发表于 2018-7-30 15:30:59 | 显示全部楼层
挨个点击大图下面的小图,用爬虫爬大图的内容,如果是视频,结构不一样,如下图。可以做两个规则,用相同的主题名,一个规则抓取视频的情形,一个规则抓取图片的情形

视频20180730152918.png
举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-7-30 16:38:51 | 显示全部楼层
Fuller 发表于 2018-7-30 15:30
挨个点击大图下面的小图,用爬虫爬大图的内容,如果是视频,结构不一样,如下图。可以做两个规则,用相同的 ...

那抓取过程怎么体现有无和数量呢
举报 使用道具
Fuller 管理员 发表于 2018-7-30 18:43:18 | 显示全部楼层
DuoRuaiMi 发表于 2018-7-30 16:38
那抓取过程怎么体现有无和数量呢

爬的过程统计不了,把爬下来的结果放在excel中做统计
举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-8-12 16:35:46 | 显示全部楼层
Fuller 发表于 2018-7-30 15:30
挨个点击大图下面的小图,用爬虫爬大图的内容,如果是视频,结构不一样,如下图。可以做两个规则,用相同的 ...

请问怎么区分图片和视频类型,具体要抓取什么内容,还有点击每个小图的情况,是设置连续点击来完成的吗
举报 使用道具
Fuller 管理员 发表于 2018-8-12 23:50:14 | 显示全部楼层
DuoRuaiMi 发表于 2018-8-12 16:35
请问怎么区分图片和视频类型,具体要抓取什么内容,还有点击每个小图的情况,是设置连续点击来完成的吗
...

我看了一下,视频和图片是用不同DIV表示的,用连续动作点击每个小图,然后抓取大图位置的内容
举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-8-13 08:49:36 | 显示全部楼层
Fuller 发表于 2018-8-12 23:50
我看了一下,视频和图片是用不同DIV表示的,用连续动作点击每个小图,然后抓取大图位置的内容
...

那我要如何设置连续点击动作呢,我抓取的网页中每个大图下面小图的个数都不同,有的还只有一个大图
举报 使用道具
Fuller 管理员 发表于 2018-8-13 11:51:06 | 显示全部楼层
DuoRuaiMi 发表于 2018-8-13 08:49
那我要如何设置连续点击动作呢,我抓取的网页中每个大图下面小图的个数都不同,有的还只有一个大图
...

选择一个图多的作为样本页面,只要把连续动作的点击位置的xpath写正确,就能自动根据图片数量点击恰好的次数。写好xpath以后,把xpath输入进来,点击搜索,看看能否搜到所有的图片。要能搜到所有的图片才行。

搜索20180813115032.png

上图,在红框那里输入xpath做搜索测试
举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-8-19 13:47:07 | 显示全部楼层
本帖最后由 DuoRuaiMi 于 2018-8-19 13:48 编辑
Fuller 发表于 2018-8-13 11:51
选择一个图多的作为样本页面,只要把连续动作的点击位置的xpath写正确,就能自动根据图片数量点击恰好的 ...

按照您的说法做了两层规则:
第一层:抓取图片数量第一级
第二层:抓取图片数量第二级
网址线索
页面中应该是9个图片,可是规则运行成功后二级规则中只生成了6个xml文件是为什么呢
举报 使用道具
wangyong 版主 发表于 2018-8-19 18:45:52 | 显示全部楼层
你再运行一下试试,把打数机窗口开到最大化,刚才我加载你的规则执行,可以正常抓到9个xml
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:58