我希望能爬取深圳市房产交易数据,在每个地块的二级页面中,爬取“二、宗地出让条件的全部内容”,这个应该如何使用Xpath函数呢?二级页面的网址是https://www.sz68.com/tiaim/web/landDetail?id=20200828144830594360867834285286&code=0015&goodId=20200828144830581364360278664104

一级页面的网址是:https://www.sz68.com/tiaim/web/getLandTarget?type=0,1,4,5,6,7,9,11,99&code=0015-0001&sel=001501
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2020-9-17 18:06

Fuller 管理员 发表于 2020-9-17 12:06:17 | 显示全部楼层
这样的网页内容很难做采集规则,你可以试试打开多个这样的网页,看看需要的内容是不是在固定的位置。据我了解,这样的内容都是他们从word文档转过来的,里面的内容位置没有规律,不能用爬虫规则采集数据,如果需要精确采集,可以用集搜客摘录软件
规则20200917120332.png
举报 使用道具
wangyong 版主 发表于 2020-9-17 12:08:36 | 显示全部楼层
key2.png
  1. substring-before(substring-after(.,'二、宗地出让条件'),'三、竞买人主体资格要求')
复制代码
用这个xpath可以采到适用于当前网页规则的数据,如果有多种规律,就得用其他高级的方法了,xpath的适应性有限
举报 使用道具
18811040215 新手上路 发表于 2020-9-17 15:16:32 | 显示全部楼层
wangyong 发表于 2020-9-17 12:08
用这个xpath可以采到适用于当前网页规则的数据,如果有多种规律,就得用其他高级的方法了,xpath的适应性 ...

您好,这个提示抓取内容必须做映射,我看您的直接抓出来了,请问不知道是怎么回事?
123.png
举报 使用道具
Fuller 管理员 发表于 2020-9-17 15:24:43 | 显示全部楼层
18811040215 发表于 2020-9-17 15:16
您好,这个提示抓取内容必须做映射,我看您的直接抓出来了,请问不知道是怎么回事? ...

一开始还是要做内容映射,映射完成后,测试规则,看到数据规则以后,根据生成的数据规则,编写要自定的部分,然后在自定义xpath输入框中输入。爬虫就会用自定义的替换生成的。

具体过程看这个教程:https://www.gooseeker.com/doc/article-269-1.html
举报 使用道具
18811040215 新手上路 发表于 2020-9-17 16:46:17 | 显示全部楼层
Fuller 发表于 2020-9-17 15:24
一开始还是要做内容映射,映射完成后,测试规则,看到数据规则以后,根据生成的数据规则,编写要自定的部 ...

谢谢,已经定位了,不知道这个定位对不对?还得麻烦您给看看。这个为什么会说是为整理箱生成结果的时候发生异常?
举报 使用道具
18811040215 新手上路 发表于 2020-9-17 16:54:53 | 显示全部楼层
Fuller 发表于 2020-9-17 15:24
一开始还是要做内容映射,映射完成后,测试规则,看到数据规则以后,根据生成的数据规则,编写要自定的部 ...

如图

112233.png
举报 使用道具
18811040215 新手上路 发表于 2020-9-17 17:10:25 | 显示全部楼层
Fuller 发表于 2020-9-17 15:24
一开始还是要做内容映射,映射完成后,测试规则,看到数据规则以后,根据生成的数据规则,编写要自定的部 ...

其实主要想知道,您做的时候定位的映射是哪一个?我现在可以正常的执行高级选项下的爬虫了,但是无法输出最后的结果
举报 使用道具
wangyong 版主 发表于 2020-9-17 17:12:02 | 显示全部楼层
18811040215 发表于 2020-9-17 17:10
其实主要想知道,您做的时候定位的映射是哪一个?我现在可以正常的执行高级选项下的爬虫了,但是无法输出 ...

把定位标志映射都取消
举报 使用道具
18811040215 新手上路 发表于 2020-9-17 17:16:49 | 显示全部楼层
wangyong 发表于 2020-9-17 17:12
把定位标志映射都取消

都取消的话提示测试抓取内容必须做映射
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:43