集搜客GooSeeker网络爬虫

标题: 抓取图片问题 [打印本页]

作者: Shuquan    时间: 2017-9-25 17:50
标题: 抓取图片问题
同一张图片对应不同的人名问题
规则名:网贷之家_第二层_3.7
通过连续动作爬下来    在网贷之家_高管信息_3.8 文件中同一个图片对应很多个人名


作者: bowieD    时间: 2017-9-25 18:41
1,抓取内容没有勾选关键内容
2,连续动作中不要用绝对定位去自定义XPtah
3,如果要提取动作施加点的信息,需要用到内容表达式《内容表达式》
作者: Shuquan    时间: 2017-9-26 09:48
回答的问题太高深了看不懂,能帮我改下吧,看不懂 谢谢
作者: bowieD    时间: 2017-9-26 11:44
1,因为高管信息的第一个DIV的@class值和后面四个@class值不一样,所以抓取到的图片始终是第一张。
2,因为你要采集的每个高管的所有信息在一个DIV下,所以可以直接用样例复制做采集,不需要用连续动作去点击每一选择框。
作者: Shuquan    时间: 2017-9-26 19:38
没法做样例复制,做玩样例复制直接报空dom

作者: Fuller    时间: 2017-9-26 21:57
Shuquan 发表于 2017-9-26 19:38
没法做样例复制,做玩样例复制直接报空dom

不可能无法做样例复制,如果报DOM空,那是网页内容变了,需要刷新网页结构

作者: Fuller    时间: 2017-9-26 22:01
第二级规则你想采集什么内容?采集图片?采集每个高管的照片?
作者: Fuller    时间: 2017-9-26 22:03
就像bowieD说的,每个高管的照片都在网页上,虽然只显示了一个,其实所有照片都在,只要做个样例复制就行了
作者: Shuquan    时间: 2017-9-27 18:43
[attach]7816[/attach]做样例复制没有用



作者: Fuller    时间: 2017-9-27 18:58
Shuquan 发表于 2017-9-27 18:43
做样例复制没有用

要在第二级里面做样例复制抓取所有高管信息。你的第二级规则是 网贷之家_高管简介_3.8

作者: Shuquan    时间: 2017-9-27 19:06
[attach]7817[/attach]还是不行的

作者: umsung    时间: 2017-9-28 10:04
本帖最后由 umsung 于 2017-9-28 10:21 编辑

1,你映射的“平台名称”不在DIV内,所以会报抓取的内容没有包含在内,样例复制下肯定不能有平台名称。
2,因为人员信息单独在一个DIV下,所以需要分别单独给人员信息和高管详细信息(高管简介+高管图片)做样例复制
作者: Shuquan    时间: 2017-9-28 10:55
[attach]7822[/attach][attach]7823[/attach] 按照你说的修改出现了大量的重复


作者: umsung    时间: 2017-9-28 11:10
做了样例复制就不要连续动作了,把连续动作删掉。




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2