https://www.kemmerich-maschinen. ... Drilling%20machines
请注意看看这个页面的结构,嵌套整理箱不能实现,这里的所有信息如何采集?求思路?
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2020-2-14 16:32

沙发
Fuller 管理员 发表于 2020-2-13 12:42:45 | 只看该作者
你的规则的主题名是什么?我可以在你的规则上面做测试
举报 使用道具
板凳
gracewlh 高级会员 发表于 2020-2-13 12:44:29 | 只看该作者
Fuller 发表于 2020-2-13 12:42
你的规则的主题名是什么?我可以在你的规则上面做测试

任务名:ke产品文字信息采集

谢谢!
举报 使用道具
地板
Fuller 管理员 发表于 2020-2-13 12:56:13 | 只看该作者


如果你想采集每个表的标题,那么就会比较麻烦。因为从这个网页结构上看,标题那行的tr和产品信息行的tr是在同一级的,没有层次关系,就很难做。

需要这样做:
1,定义整理箱,包含所有要采集的内容,就是说那行标题也作为其中一项抓取内容,产品信息的每个字段也分别作为抓取内容
2,要用自定义xpath:
2.1,假定你以第一条(标题那一条)作为样本,这一条没有产品信息,但是照样给产品相关的抓取内容做内容映射,就都用那个标题节点做映射就行
2.2,因为这一条信息没有产品相关的内容,那么就要为这些抓取内容自定义xpath:
在自定义xpath输入框中有两个xpath要输入,一个是定位用的,一个是抓取内容用的。前者是为了加载和定义规则的时候好恢复工作台上的规则,后者才是爬虫采数据的时候用的。那么这样填:
a,定位用的xpath使用当前自动生成的xpath
b,抓取内容用的xpath要自己编。根据产品信息行中的每个字段的dom节点位置,编写xpath

你可以按照这个指导定义规则,如果运行不理想,把规则名发出来我帮你看看原因

举报 使用道具
5#
Fuller 管理员 发表于 2020-2-13 13:01:26 | 只看该作者
gracewlh 发表于 2020-2-13 12:44
任务名:ke产品文字信息采集

谢谢!

按照我的回复,你在整理箱中增加需要采集的内容,然后做内容映射,然后自定义xpath

自定义xpath的经验贴都在这里:https://www.gooseeker.com/doc/thread-701-1-1.html
其中有一篇讲解定位用的和抓取内容用的有什么区别:https://www.gooseeker.com/doc/thread-1767-1-1.html

注意自定义xpath一定要用相对的xpath,就是用 ./开头的,不能 // ,否则所有样例都会抓到相同的值。那么这个相对的xpath怎么得到?是要把自动生成的xpath拷贝过来,xpath的开头字符不要修改,已经自动算好了相对关系,只修改后面的path。

在工作台上点击测试按钮,在弹出框中选择“数据规则”tab,就能看到自动生成的规则
举报 使用道具
6#
gracewlh 高级会员 发表于 2020-2-13 14:00:24 | 只看该作者
采集的数据需要满足:页面上的小标题和多个产品信息的对应关系。每个页面包含的小标题数量以及对应产品数量都是不确定的。如果采集结果不能体现出这种对应关系就没有意义了。
举报 使用道具
7#
gracewlh 高级会员 发表于 2020-2-13 14:02:47 | 只看该作者
如果只采集产品信息,不考虑小标题可以用xpath定位采集,这样就没有对应关系了。
举报 使用道具
8#
Fuller 管理员 发表于 2020-2-13 16:05:19 | 只看该作者
gracewlh 发表于 2020-2-13 14:00
采集的数据需要满足:页面上的小标题和多个产品信息的对应关系。每个页面包含的小标题数量以及对应产品数量 ...

因为采集下来的内容是按照网页上的顺序存放的,那么一个标题下面的信息都是属于这个标题的
举报 使用道具
9#
gracewlh 高级会员 发表于 2020-2-14 13:35:04 | 只看该作者
Fuller 发表于 2020-2-13 16:05
因为采集下来的内容是按照网页上的顺序存放的,那么一个标题下面的信息都是属于这个标题的
...

我没太理解你的思路,是做样例复制吗?标题行和其他行结构不同,能做样例复制呢?
举报 使用道具
10#
gracewlh 高级会员 发表于 2020-2-14 15:11:30 | 只看该作者
gracewlh 发表于 2020-2-14 13:35
我没太理解你的思路,是做样例复制吗?标题行和其他行结构不同,能做样例复制呢? ...

麻烦您帮我看看规则 ke产品文字信息采集 ,怎么修改?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:30