http://www.jyeoo.com/bio/ques/search

想爬去上面的内容,但是失败了,有的题目有图片,现在还在摸索中,


想换一种方法整站下载的,但是失败

很想知道它是如何做到的。谢谢回答问题的同学!
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-5-8 09:12

沙发
xandy 论坛元老 发表于 2016-12-12 15:28:08 | 只看该作者
1、有的有图片有的没有图片,怎么解决?
先看看不同题型的题目结构,如下图所示,选择题有两个部分构成,一个是class='pt1'的div,一个是class='pt2'的div,而图片都是class='pt1'中的img部分。


除了选择题之外的填空题、判断题、实验探究题和解答题,它们的题目都是class='pt1'的div,图片都是class='pt1'中的img部分。

找出了规律,这个规则就好办了。题目部分分成两个部分,pt1和pt2,然后给pt2勾选“下载图片”,试题中的图片就会一并下载下来。

举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-12 15:35:52 | 只看该作者
2、该网站是如何禁用鼠标动作的?
网站并没有禁用鼠标动作,而是你选择不同的版本及学期,网址的url都不发生变化,人的一连串动作,爬虫也可以模拟出来,你想要整站抓取,那么就要点击不同的版本,并点击不同的年纪及学期,然后爬虫再抓取相应点击后呈现的结果。做两个规则,一个定义连续动作,一个定义采集规则。
教程参看:《连续动作让爬虫持续采集
类似的应用场景参看:《自动点击京东商品价格条件,智能采集价格数据
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-12 22:27:22 | 只看该作者
有些网站,比如,360doc,会把鼠标的一些操作给禁止了,这样人工通过拷贝-粘贴的方式无法把网页内容拷出来,但是,用GooSeeker网络爬虫采集网页内容的话,这种禁制是没有任何影响的
举报 使用道具
5#
lswing 初级会员 发表于 2017-5-8 08:32:36 | 只看该作者
本帖最后由 lswing 于 2017-5-8 08:47 编辑
xandy 发表于 2016-12-12 15:28
1、有的有图片有的没有图片,怎么解决?
先看看不同题型的题目结构,如下图所示,选择题有两个部分构成,一 ...



很抱歉,当时看完帖子没有接着做,时间久了,帮朋友做的现在有给我提起来了!

我的规则名为jyeoo_5_7

按照帖子的分析做了定位,但是pt1中的图片没有抓取下来,我对图片的操作就是点击了“下载图片”
题目和选项都抓了下来!
幸好网站的结构没有发生太大的变化!
——————————————————
规则制作过程
1.选择题目和选项
2.做定位标签,题目对应PT1,选项对应pt2,在题目上悬着“下载图片”,测试结果没看到图片或者图片地址!
3.样列复制
4.爬取结果:图片失败,题目和选项正常!
————
图片为绝对路径!
举报 使用道具
6#
Fuller 管理员 发表于 2017-5-8 09:12:18 | 只看该作者
lswing 发表于 2017-5-8 08:32
很抱歉,当时看完帖子没有接着做,时间久了,帮朋友做的现在有给我提起来了!

我的规则名为jyeoo_5_7 ...

你不能给“题目”这个抓取内容勾下载图片,那是没有用的,因为图片一般不会在题目上。如果是含在“选项”中,那就够选项的“下载图片”。

如果没有含在“选项”中,那么就创建一个专门的抓取内容,比如包含整个题目行的LI节点,即便抓下来的文本内容是不想要的,但是,可以用它来下载图
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 00:32