如何抓取网页片段完整信息——以采集京东商品标题为例

2015-9-7 11:45| 发布者: HJLing| 查看: 28659| 评论: 2

摘要: 在对网页进行抓取时,由于文本内容存放在多个text节点,所以有时会遇到只抓取到目标抓取内容的一部分,例如图1这种情况。图1如图1在浏览器窗口展现的完整信息,在网页结构窗口中实际是分多个text文本节点显示的,为 ...
观看视频教程

在对网页进行抓取时,由于文本内容存放在多个text节点,所以有时会遇到只抓取到目标抓取内容的一部分,例如图1这种情况。


注释1:本文所演示的翻页抓取规则,可到资源库下载学习:完整信息抓取_京东搜索列表

图1

如图1在浏览器窗口展现的完整信息,在网页结构窗口中实际是分多个text文本节点显示的,为了将完整信息抓取下来,需要在进行高级设置后,将包含多个text文本节点的区块节点抓取下来。

一、进行高级设置

图2 高级设置

如图2,具体操作步骤如下 由图1得知在浏览器窗口展现的完整信息,在网页结构窗口中实际是包含在一个区块节点下的多个text文本节点。那么我们就需要将区块节点内的文本内容都抓取下来。 MS谋数台不能直接将区块节点进行内容映射,需要进行设置后才能进行内容映射。

1.勾选高级设置
2.选择文本内容,我们只需要区块节点中的文本内容所以在这里勾选文本内容。

二、映射区块节点

图3 内容映射

如图3,具体操作步骤如下

1.在浏览器窗口点击想要抓取的网页内容,在网页结构窗口中找到包含完整信息的区块节点,进行内容映射。

图4  抓取内容

如图4,具体操作步骤如下

点击测试按钮可以看到我们抓取到的内容,现在我们抓取到的不是商品名称的一部分,而是商品名称的全部
存规则后即可启动DS打数机爬取数据

以上就是集搜客如何抓取网页片段完整信息的具体操作步骤。

46

鲜花
2

握手
1

雷人
1

路过
1

鸡蛋

刚表态过的朋友 (51 人)

相关阅读

发表评论

最新评论

评论 Fuller 2016-9-6 09:07
wjzeng: 怎么“文本内容”中显示的不是所有的文本信息?
有些网页上的一段文字会被切分成好几个text(),如果遇到这种情况,你需要选择它的祖先节点,能够包含所有文本内容的那个最近的祖先节点
评论 wjzeng 2016-9-6 08:45
怎么“文本内容”中显示的不是所有的文本信息?

查看全部评论(2)

GMT+8, 2024-10-4 19:43