快捷导航
6 2181

如何采集动态页面?

yxjun1984 于 2018-5-24 17:41 发表 [复制链接]
规则名是“日本2017年后台一月份销售好的产品”,始终采集不到自已要的东西,东西是第一张图片,但是利用规则采集不到自己要的东西,请指点
2.png
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-5-26 11:49

数据集 高级会员 发表于 2018-5-24 18:23:44 | 显示全部楼层
加载你的规则报错了,内容映射失效了,重新映射再给抓取内容做上定位标志映射,选择定位标志的节点最好选择抓取内容的父级节点
1.png
举报 使用道具
wangyong 版主 发表于 2018-5-24 18:29:56 | 显示全部楼层
本帖最后由 wangyong 于 2018-5-24 18:31 编辑

j1.png
1,先选择body下的div给整理箱顶节点做上定位标志映射
2,排名和时间分别要做自定义xpath,参考教程:https://www.gooseeker.com/doc/article-269-1.html

大类排名xpath:
  1. .//*[@class='pdTab']//tr[contains(./td[1]/text(),'Amazon 売れ筋ランキング')]/td[2]
复制代码
上架时间xpath:
  1. .//*[@class='pdTab']//tr[contains(./td[1]/text(),'Amazon.co.jp での取り扱い開始日')]/td[2]
复制代码


举报 使用道具
yxjun1984 金牌会员 发表于 2018-5-25 18:32:29 | 显示全部楼层
数据集 发表于 2018-5-24 18:23
加载你的规则报错了,内容映射失效了,重新映射再给抓取内容做上定位标志映射,选择定位标志的节点最好选择 ...

我运行了20多条线索都没什么问题啊,您重新加载出现问题,请问问题出在哪里呢?
举报 使用道具
Fuller 管理员 发表于 2018-5-25 19:09:21 | 显示全部楼层
yxjun1984 发表于 2018-5-25 18:32
我运行了20多条线索都没什么问题啊,您重新加载出现问题,请问问题出在哪里呢?
...

采集的时候虽然没有报错,但是有可能定位不准,采集到不想用的内容。加载规则的时候,如果定位不准,就直接报错了。出现这种情况的话,就要用上定位标志映射,可以精准定位,参看教程《定位标志精确采集范围》。

你按照楼上说的,给抓取内容尽量用上定位标志映射,除非没有合适的定位标志
举报 使用道具
yxjun1984 金牌会员 发表于 2018-5-26 11:16:34 | 显示全部楼层
wangyong 发表于 2018-5-24 18:29
1,先选择body下的div给整理箱顶节点做上定位标志映射
2,排名和时间分别要做自定义xpath,参考教程:http ...

整体箱子做顶级定位映射是什么意义和作用?
举报 使用道具
Fuller 管理员 发表于 2018-5-26 11:49:56 | 显示全部楼层
yxjun1984 发表于 2018-5-26 11:16
整体箱子做顶级定位映射是什么意义和作用?

可以替代样例复制映射,要比样例复制映射更好,用法参看《定位标志采集列表数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 采集图片网址并下载图片(二)——下载途牛
  • 采集图片网址并下载图片(一)—— 单图下
  • 定位映射采集列表数据——以B站视频列表为
  • 网络爬虫抓包功能
  • 内容映射

热门用户

GMT+8, 2021-1-25 15:28