内容映射

2020-12-15 19:04| 发布者: Fuller| 查看: 11528| 评论: 2

摘要: 做采集规则的时候,直观标注很方便。在网页上点一下鼠标,就把要爬取的内容标记好了,爬虫运行的时候,自动去采集这些内容。但是有些内容(比如网页上的超链接),并没有直接显示在网页上,或者有些内容即使显示了, ...

做采集规则的时候,直观标注很方便。在网页上点一下鼠标,就把要爬取的内容标记好了,爬虫运行的时候,自动去采集这些内容。但是有些内容(比如网页上的超链接),并没有直接显示在网页上,或者有些内容即使显示了,但是用直观标注不能精确标记出来。这时,就需要用到内容映射。

内容映射,要在对应的DOM节点上操作。

1. 内容映射采集超链接

下面以京东列表页上商品链接为例,说明怎样用内容映射的方法,把商品链接映射给一个新建内容(字段)。

在定义规则状态,点击商品名,在下面的的DOM栏中,光标对应到一个DOM节点,一般链接都存放在A节点下的属性节点href中。


右键href节点,内容映射-新建内容

给新建内容起个名字叫做"商品链接",因为采集的是网址链接,href节点内的网址不完整,所以要勾选补全网址。

做好了,我们测试一下,看到商品链接抓到了。


2. 内容映射采集一般网页内容

比如我们要采集这篇文章,但是在网页上用直观标注只能选中一段,到DOM节点上去做内容映射,可以把整篇文章采集到。

点击文章第一段,光标对应到下面的节点,沿着节点向上找,直到一个节点,点击它,整篇文章在闪亮的边框内,表示整篇文章被选中。鼠标右键这个节点,内容映射-新建内容,再给新内容起个名字。

这个例子中,新建内容的名字是文章。整篇内容被映射给了文章。

因为我们采集是文本内容,所以要选择纯文本。


上篇文章:爬网址做层级采集》                                           下篇文章:《定位映射提高网页采集精度


鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

评论 yinbaojianhui_0609 2021-6-19 10:24
澍翊: 有些网页A标签下面没有href属性,这怎么办
现在有些网站上的内容参考手机网页的编辑习惯写成的,就会没有href属性,甚至没有a标签。如果你想采集点进去的网页内容,或者仅仅想得到点进去的网页网址,都要在上面做点击动作,参看这个教程:https://www.gooseeker.com/doc/article-546-1.html

如果执行点击动作会打开一个新窗口,那么要勾上“弹窗模式”,如果在当前窗口显示下一层内容,那么采集完下一层以后,要执行回退动作。这两种动作都需要旗舰版权限。

回退动作教程:https://www.gooseeker.com/doc/article-556-1.html
评论 澍翊 2021-6-19 10:15
有些网页A标签下面没有href属性,这怎么办

查看全部评论(2)

GMT+8, 2024-10-4 20:48