老师,您好。我想爬取的网址是:http://yewu.ghzrzyw.beijing.gov.cn/searches/searchForTuDiZhaoPaiGua?typeId=1,里面的土地成交一览表

这个表跟京东页面的那个表,不太一样,这种表格应该怎么爬取呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-7-3 17:17

Fuller 管理员 发表于 2020-5-13 18:06:15 | 显示全部楼层
这个更像一个表。那么,
1,每个列都创建一个抓取内容,分别存:交易编号,宗地名称,建设用地面积,交易方式,规划用途,交易状态,详细。
也可以不用抓取每个列。

2,用第一行作为样例,用第一行的各个列映射到整理箱中的对应抓取内容。也可以在第一行上直接双击做直观标注


3,用第一行和第二行做样例复制映射,参看:https://www.gooseeker.com/doc/article-330-1.html

这样就能把整个表采集下来了
举报 使用道具
Fuller 管理员 发表于 2020-5-13 18:33:47 | 显示全部楼层
先这样做内容映射



再用第一行和第二行做样例复制映射


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
dolphin_1983 初级会员 发表于 2020-5-25 08:25:14 | 显示全部楼层
好的,谢谢老师。我试试。
举报 使用道具
wutongjcc 初级会员 发表于 2020-7-3 16:42:14 | 显示全部楼层
我出现的问题是  第一行全部内容映射成功,测试内容也是对的,但做了第一行和第二行映射后,内容采集出错,比如交易方式那一列采集了和交易编号一样的内容,看内容映射的编号也无误,不知道怎么解决
举报 使用道具
Fuller 管理员 发表于 2020-7-3 17:17:58 | 显示全部楼层
wutongjcc 发表于 2020-7-3 16:42
我出现的问题是  第一行全部内容映射成功,测试内容也是对的,但做了第一行和第二行映射后,内容采集出错, ...

你的规则名是什么?发出来我们诊断一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-7 00:47