按照如下操作
内容抓取部分,定义的规则都好,就是动作规划错了:
1,第一级应该是:
a,负责做悬浮动作,悬浮动作的目标主题应该指向第二级
b,负责翻页,翻页的目标主题还是第一级
2,第二级:只管采集悬浮显示出来的数据内容,不用做动作,不用翻页



第一级任务名:比价格_比一比_列表
第二级任务名:比价格_比一比_列表悬浮
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2020-5-11 19:44

沙发
Fuller 管理员 发表于 2020-5-7 15:48:31 | 只看该作者

在每个产品的div中都有这么一个悬浮内容,等悬浮以后,这里的iframe内容就填好了。我测试了你的规则,只能采集第一个产品的iframe,要调整一下规则,能适应其他iframe
举报 使用道具
板凳
Fuller 管理员 发表于 2020-5-7 15:53:18 | 只看该作者
要做这个网站的规则有些麻烦,因为在创建规则工作台上定义个整理箱是针对特定iframe的。这样要采集的数据是不断换iframe的,我要想想怎么采集
举报 使用道具
地板
Fuller 管理员 发表于 2020-5-7 16:31:15 | 只看该作者
这个问题我转给开发部门,应该需要出一个新版本才能解决
举报 使用道具
5#
Fuller 管理员 发表于 2020-5-7 19:23:48 | 只看该作者
研发部门说已经开发完成了,正在测试。明天上班期间加入qq群,在群里联络管理员,要一个开发阶段版本,因为现在还没有到正式发布的时候。
可以加入这个集搜客网络爬虫群:813874590
举报 使用道具
6#
minguming 初级会员 发表于 2020-5-8 09:22:33 | 只看该作者
Fuller 发表于 2020-5-7 19:23
研发部门说已经开发完成了,正在测试。明天上班期间加入qq群,在群里联络管理员,要一个开发阶段版本,因为 ...

感谢,今天先用使用版看看能不能解决我的问题   
举报 使用道具
7#
Fuller 管理员 发表于 2020-5-8 09:36:32 | 只看该作者
minguming 发表于 2020-5-8 09:22
感谢,今天先用使用版看看能不能解决我的问题

做规则要注意:
当出现悬浮窗口的时候,会盖住下一个悬浮位置,所以,总是会间隔漏掉一个。为了解决这个问题,应该在这个悬浮动作之前再定义一个悬浮动作,悬浮在唯一的固定位置,比如,“比一比”那个logo上,这个动作相当于清理掉网页上的悬浮显示出来的窗口。
举报 使用道具
8#
Fuller 管理员 发表于 2020-5-8 09:40:18 | 只看该作者
还有一个问题要解决:数据怎么对应

下图,红色箭头位置是浮窗中的内容,但是,一旦浮窗显示出来了,显示下一个浮窗的时候,前一个浮窗的内容就不会从网页上删除掉,所以,前面浮动出来的都会采集下来。那么,根据什么标志对应到某个产品上?
蓝色箭头是浮窗对应的iframe网址,在采集结果中当成元数据了,转换成excel就没有包括这个数据。所以,最好能自己直接处理原始采集结果,利用iframe网址做对应
举报 使用道具
9#
minguming 初级会员 发表于 2020-5-11 13:58:13 | 只看该作者
Fuller 发表于 2020-5-8 09:40
还有一个问题要解决:数据怎么对应

下图,红色箭头位置是浮窗中的内容,但是,一旦浮窗显示出来了,显示下 ...

大佬,没有附带图啊
举报 使用道具
10#
Fuller 管理员 发表于 2020-5-11 15:34:28 | 只看该作者
minguming 发表于 2020-5-11 13:58
大佬,没有附带图啊


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 04:23