快捷导航

【第16期】表格型数据采集

2016-5-30 16:24| 发布者: ym| 查看: 1170| 评论: 2

摘要: 采集网页上的表格数据,跟采集其他网页数据的基本操作是一样的。具体来说就是,把第一行作为样例,对每个格子建立抓取内容并做映射,然后对第一行和第二行做样例复制映射,就能把整个表格抓下来,如果还要翻页的话, ...

采集网页上的表格数据,跟采集其他网页数据的基本操作是一样的。具体来说就是,把第一行作为样例,对每个格子建立抓取内容并做映射,然后对第一行和第二行做样例复制映射,就能把整个表格抓下来,如果还要翻页的话,那就在爬虫路线里设置翻页就行了。注意:同一列表格也可能会有不同的结构,从而造成漏抓或抓错,这也是表格数据的难点,但可以调整整理箱定位偏好自定义xpath来解决。

点击观看培训视频




若有疑问可以集搜客网络爬虫
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 ym 2016-6-29 10:45
fendoudeqinger: 那如果一个网页中有好几个表格的行内容相同怎么定向抓取啊
方法一:如果是一个网页上不用点击就显示出几个表格的情况,可以在一个规则中建多个整理箱,一个整理箱抓一个表格,并且要分别限定表格的采集范围(用到定位标志),否则容易抓错。
方法二:如果网页上有多个表格但需要点击页签才能显示出来的话,就要用到模拟点击,逐个点击,再逐个表格采集。
也可以
评论 fendoudeqinger 2016-6-29 10:32
那如果一个网页中有好几个表格的行内容相同怎么定向抓取啊

查看全部评论(2)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-28 08:38