7 11515

智联招聘网站

piggy_ljj 于 2018-1-11 21:46 发表 [复制链接]
本帖最后由 piggy_ljj 于 2018-1-12 11:46 编辑

主题名是“智联招聘_ljj二级”
真的找不到公司介绍的内容节点...没法做映射
而且尝试抓取了一下 1个页面对应3个xml

360截图20180112112616322.jpg
360截图20180112112633543.jpg
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-1-12 14:15

yangwenge 金牌会员 发表于 2018-1-11 21:52:43 | 显示全部楼层
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?
举报 使用道具
piggy_ljj 中级会员 发表于 2018-1-11 22:13:00 | 显示全部楼层
yangwenge 发表于 2018-1-11 21:52
是这个规则吗?怎么我加载规则里面是采集的职位信息,没有连续动作?

现在有了 您再看一下谢谢!
设了连续动作之后工作岗位、公司名称、月薪、发布日期都不对了
举报 使用道具
数据集二期 中级会员 发表于 2018-1-12 09:42:30 | 显示全部楼层
1,抓取内容不对是因为你映射的节点不对,要采集什么就映射什么。
2,你的连续动作的xptah不对,能定位到两个节点,这样的话爬虫就不知道该点击哪个,
3,这个“公司介绍”页签下面的信息就算不点击也能采集,因为在网页标签窗口中可以找到“公司介绍”页签下的节点。找到这些节点直接做映射就可以了。
举报 使用道具
wangyong 版主 发表于 2018-1-12 10:10:08 | 显示全部楼层
这个网页不要做点击,公司介绍的数据就直接在当前网页上
举报 使用道具
piggy_ljj 中级会员 发表于 2018-1-12 11:47:25 | 显示全部楼层
找不到公司介绍下的节点...而且一个网页为啥有3个xml...
举报 使用道具
yangwenge 金牌会员 发表于 2018-1-12 14:15:03 | 显示全部楼层
1,先将连续动作删除,这个页面可以不需要点击就能定位到公司介绍;
%P`FW99J%KRNSSGKP]WP)LR.png
2,采集到3个xml看是不是之前采集的。
举报 使用道具
数据集二期 中级会员 发表于 2018-1-12 14:15:58 | 显示全部楼层
piggy_ljj 发表于 2018-1-12 11:47
找不到公司介绍下的节点...而且一个网页为啥有3个xml...

1,一个网页有三个xml应该是你采集了多次。2,公司的节点可以点击切换到“公司介绍”模块,再点击公司介绍模块里面的内容做映射。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 10:28