快捷导航
15 124

求采集方法

gracewlh 于 2020-2-13 12:39 发表 [复制链接]
https://www.kemmerich-maschinen. ... Drilling%20machines
请注意看看这个页面的结构,嵌套整理箱不能实现,这里的所有信息如何采集?求思路?
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2020-2-14 16:32

Fuller 管理员 发表于 2020-2-13 12:42:45 | 显示全部楼层
你的规则的主题名是什么?我可以在你的规则上面做测试
举报 使用道具
gracewlh 中级会员 发表于 2020-2-13 12:44:29 | 显示全部楼层
Fuller 发表于 2020-2-13 12:42
你的规则的主题名是什么?我可以在你的规则上面做测试

任务名:ke产品文字信息采集

谢谢!
举报 使用道具
Fuller 管理员 发表于 2020-2-13 12:56:13 | 显示全部楼层
结构20200213124807.png

如果你想采集每个表的标题,那么就会比较麻烦。因为从这个网页结构上看,标题那行的tr和产品信息行的tr是在同一级的,没有层次关系,就很难做。

需要这样做:
1,定义整理箱,包含所有要采集的内容,就是说那行标题也作为其中一项抓取内容,产品信息的每个字段也分别作为抓取内容
2,要用自定义xpath:
2.1,假定你以第一条(标题那一条)作为样本,这一条没有产品信息,但是照样给产品相关的抓取内容做内容映射,就都用那个标题节点做映射就行
2.2,因为这一条信息没有产品相关的内容,那么就要为这些抓取内容自定义xpath:
在自定义xpath输入框中有两个xpath要输入,一个是定位用的,一个是抓取内容用的。前者是为了加载和定义规则的时候好恢复工作台上的规则,后者才是爬虫采数据的时候用的。那么这样填:
a,定位用的xpath使用当前自动生成的xpath
b,抓取内容用的xpath要自己编。根据产品信息行中的每个字段的dom节点位置,编写xpath

你可以按照这个指导定义规则,如果运行不理想,把规则名发出来我帮你看看原因

举报 使用道具
Fuller 管理员 发表于 2020-2-13 13:01:26 | 显示全部楼层
gracewlh 发表于 2020-2-13 12:44
任务名:ke产品文字信息采集

谢谢!

按照我的回复,你在整理箱中增加需要采集的内容,然后做内容映射,然后自定义xpath

自定义xpath的经验贴都在这里:https://www.gooseeker.com/doc/thread-701-1-1.html
其中有一篇讲解定位用的和抓取内容用的有什么区别:https://www.gooseeker.com/doc/thread-1767-1-1.html

注意自定义xpath一定要用相对的xpath,就是用 ./开头的,不能 // ,否则所有样例都会抓到相同的值。那么这个相对的xpath怎么得到?是要把自动生成的xpath拷贝过来,xpath的开头字符不要修改,已经自动算好了相对关系,只修改后面的path。

在工作台上点击测试按钮,在弹出框中选择“数据规则”tab,就能看到自动生成的规则
举报 使用道具
gracewlh 中级会员 发表于 2020-2-13 14:00:24 | 显示全部楼层
采集的数据需要满足:页面上的小标题和多个产品信息的对应关系。每个页面包含的小标题数量以及对应产品数量都是不确定的。如果采集结果不能体现出这种对应关系就没有意义了。
举报 使用道具
gracewlh 中级会员 发表于 2020-2-13 14:02:47 | 显示全部楼层
如果只采集产品信息,不考虑小标题可以用xpath定位采集,这样就没有对应关系了。
举报 使用道具
Fuller 管理员 发表于 2020-2-13 16:05:19 | 显示全部楼层
gracewlh 发表于 2020-2-13 14:00
采集的数据需要满足:页面上的小标题和多个产品信息的对应关系。每个页面包含的小标题数量以及对应产品数量 ...

因为采集下来的内容是按照网页上的顺序存放的,那么一个标题下面的信息都是属于这个标题的
举报 使用道具
gracewlh 中级会员 发表于 2020-2-14 13:35:04 | 显示全部楼层
Fuller 发表于 2020-2-13 16:05
因为采集下来的内容是按照网页上的顺序存放的,那么一个标题下面的信息都是属于这个标题的
...

我没太理解你的思路,是做样例复制吗?标题行和其他行结构不同,能做样例复制呢?
举报 使用道具
gracewlh 中级会员 发表于 2020-2-14 15:11:30 | 显示全部楼层
gracewlh 发表于 2020-2-14 13:35
我没太理解你的思路,是做样例复制吗?标题行和其他行结构不同,能做样例复制呢? ...

麻烦您帮我看看规则 ke产品文字信息采集 ,怎么修改?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在限定论域的时候,为什么“任何一个”表示
  • 数理逻辑是讲什么的?
  • 内容分析法中的抽样
  • 豆瓣电影的情感分析
  • 一本在线图书——社交网络分析介绍

热门用户

GMT+8, 2020-2-27 13:08