本帖最后由 piggy_ljj 于 2018-1-12 11:46 编辑

主题名是“智联招聘_ljj二级”
真的找不到公司介绍的内容节点...没法做映射
而且尝试抓取了一下 1个页面对应3个xml

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-1-12 14:15

沙发
yangwenge 金牌会员 发表于 2018-1-11 21:52:43 | 只看该作者
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?
举报 使用道具
板凳
piggy_ljj 中级会员 发表于 2018-1-11 22:13:00 | 只看该作者
yangwenge 发表于 2018-1-11 21:52
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?

现在有了 您再看一下谢谢!
设了连续动作之后工作岗位、公司名称、月薪、发布日期都不对了
举报 使用道具
地板
数据集二期 中级会员 发表于 2018-1-12 09:42:30 | 只看该作者
1,抓取内容不对是因为你映射的节点不对,要采集什么就映射什么。
2,你的连续动作的xptah不对,能定位到两个节点,这样的话爬虫就不知道该点击哪个,
3,这个“公司介绍”页签下面的信息就算不点击也能采集,因为在网页标签窗口中可以找到“公司介绍”页签下的节点。找到这些节点直接做映射就可以了。
举报 使用道具
5#
shenzhenuser1 版主 发表于 2018-1-12 10:10:08 | 只看该作者
这个网页不要做点击,公司介绍的数据就直接在当前网页上
举报 使用道具
6#
piggy_ljj 中级会员 发表于 2018-1-12 11:47:25 | 只看该作者
找不到公司介绍下的节点...而且一个网页为啥有3个xml...
举报 使用道具
7#
yangwenge 金牌会员 发表于 2018-1-12 14:15:03 | 只看该作者
1,先将连续动作删除,这个页面可以不需要点击就能定位到公司介绍;

2,采集到3个xml看是不是之前采集的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
数据集二期 中级会员 发表于 2018-1-12 14:15:58 | 只看该作者
piggy_ljj 发表于 2018-1-12 11:47
找不到公司介绍下的节点...而且一个网页为啥有3个xml...

1,一个网页有三个xml应该是你采集了多次。2,公司的节点可以点击切换到“公司介绍”模块,再点击公司介绍模块里面的内容做映射。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-31 08:03