本帖最后由 piggy_ljj 于 2018-1-12 11:46 编辑

主题名是“智联招聘_ljj二级”
真的找不到公司介绍的内容节点...没法做映射
而且尝试抓取了一下 1个页面对应3个xml

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-1-12 14:15

沙发
yangwenge 金牌会员 发表于 2018-1-11 21:52:43 | 只看该作者
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?
举报 使用道具
板凳
piggy_ljj 中级会员 发表于 2018-1-11 22:13:00 | 只看该作者
yangwenge 发表于 2018-1-11 21:52
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?

现在有了 您再看一下谢谢!
设了连续动作之后工作岗位、公司名称、月薪、发布日期都不对了
举报 使用道具
地板
数据集二期 中级会员 发表于 2018-1-12 09:42:30 | 只看该作者
1,抓取内容不对是因为你映射的节点不对,要采集什么就映射什么。
2,你的连续动作的xptah不对,能定位到两个节点,这样的话爬虫就不知道该点击哪个,
3,这个“公司介绍”页签下面的信息就算不点击也能采集,因为在网页标签窗口中可以找到“公司介绍”页签下的节点。找到这些节点直接做映射就可以了。
举报 使用道具
5#
wangyong 版主 发表于 2018-1-12 10:10:08 | 只看该作者
这个网页不要做点击,公司介绍的数据就直接在当前网页上
举报 使用道具
6#
piggy_ljj 中级会员 发表于 2018-1-12 11:47:25 | 只看该作者
找不到公司介绍下的节点...而且一个网页为啥有3个xml...
举报 使用道具
7#
yangwenge 金牌会员 发表于 2018-1-12 14:15:03 | 只看该作者
1,先将连续动作删除,这个页面可以不需要点击就能定位到公司介绍;

2,采集到3个xml看是不是之前采集的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
数据集二期 中级会员 发表于 2018-1-12 14:15:58 | 只看该作者
piggy_ljj 发表于 2018-1-12 11:47
找不到公司介绍下的节点...而且一个网页为啥有3个xml...

1,一个网页有三个xml应该是你采集了多次。2,公司的节点可以点击切换到“公司介绍”模块,再点击公司介绍模块里面的内容做映射。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-12 04:06