快捷导航
专家大神好,
目前需要抓取黑猫投诉相关投诉信息,其中包括投诉详情。
但是不同的投诉,其处理进度不同,导致其位置有些许不同(如下图两例)
如果以某个页面为例,直接抓取对应位置,会导致部分网页的投诉详情无法抓取
目前采用的是抓取整个区域,再在excel上进行删除,但感觉很耗费时间(数据总量3000+)
不知道是否有更加简便高效的方法,即仅精确抓取投诉详情部分?
不胜感激!


案例1.png
案例2.png
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-11-8 23:30

Fuller 管理员 发表于 2019-11-8 08:16:32 | 显示全部楼层
每一条的样式不一样,通过选择不同的定位偏好,或者用绝对定位,可以避免样式的影响 pinghao.png
举报 使用道具
viperliu 初级会员 发表于 2019-11-8 15:10:59 | 显示全部楼层
Fuller 发表于 2019-11-8 08:16
每一条的样式不一样,通过选择不同的定位偏好,或者用绝对定位,可以避免样式的影响
...

规则名称:
实证_黑猫投诉单条信息抓取_绝对定位尝试设置class优先或id优先,选择有class名称的行进行爬取,但同样会出现错位(同一class名称在同一网页内多次出现)。另外,网页无id信息
麻烦问下这种情况后面应该怎么处理,一定要自定义xpath吗?
感谢!


举报 使用道具
viperliu 初级会员 发表于 2019-11-8 15:50:54 | 显示全部楼层
Fuller 发表于 2019-11-8 08:16
每一条的样式不一样,通过选择不同的定位偏好,或者用绝对定位,可以避免样式的影响
...

或者说我目前的需求就是抓取每条投诉详情中最下面的一条信息,这个逻辑应该如何构建。麻烦专家了!
举报 使用道具
Fuller 管理员 发表于 2019-11-8 19:19:33 | 显示全部楼层
TIM截图20191108191741.png
只想要“发起投诉”的那一块?不要“商家处理”这些?
这样就要根据“发起投诉”这个词做自定义xpath。
每一条的结构都一样,我觉得不如做个规则把所有条都采集下来,在excel中把含有“发起投诉”的过滤出来就行了,这样最简单
举报 使用道具
viperliu 初级会员 发表于 2019-11-8 23:30:18 | 显示全部楼层
Fuller 发表于 2019-11-8 19:19
只想要“发起投诉”的那一块?不要“商家处理”这些?
这样就要根据“发起投诉”这个词做自定义xpath。
每 ...

好的,非常感谢,我觉得您最后提的这个方法很好,我再尝试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 网络爬虫占满了c盘怎么清理
  • 为什么采集速卖通用户评论翻页不了
  • 多级规则执行连续动作而输入动作不在第一级
  • 特征工程入门介绍
  • NLP文本情感分析入门

热门用户

GMT+8, 2019-11-22 15:10