为什么招行官网的招聘信息层级采集只能采集一条二级网页的信息,求教大神为我解答

网址是:http://career.cmbchina.com/Social/Default.aspx
一级规则主题名是:招行官网招聘
二级规则主题名是:招行官网招聘具体


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-21 18:19

沙发
xandy 论坛元老 发表于 2016-12-21 16:46:07 | 只看该作者
看了你的规则,线索上没有多大问题,我运行了你的两个规则,都可以顺利将数据采集下来。
你的规则2,在运行之间先统计下线索,比如下图:
待抓取有66条,那么集搜的时候输入的线索数要大于等于66,默认是1,采集的时候当然只会采一个页面了。
ps:你的规则1,所属机构、工作地点、发布时间采集的内容都是一样的,这个你要再调整下你的规则。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-21 16:51:48 | 只看该作者
本帖最后由 xandy 于 2016-12-21 17:27 编辑

规则1:将整理箱定位偏好修改为”偏好class"
你将“职位名称”、“所属机构”、“工作地点“、”发布时间”都做了高级设置,这个习惯不好,其实没有必要,只要将相应的内容的#text()节点映射给采集字段就可以了。
举报 使用道具
地板
ayaya1212 初级会员 发表于 2016-12-21 17:19:31 | 只看该作者
xandy 发表于 2016-12-21 16:51
规则1:将定位偏好修改为”偏好class"
你将“职位名称”、“所属机构”、“工作地点“、”发布时间”都做了 ...

我明明对不同的内容作了映射,但是一测试,采集结果就变成一样的了,这是为什么啊?


举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-21 17:21:08 | 只看该作者
本帖最后由 xandy 于 2016-12-21 17:28 编辑
ayaya1212 发表于 2016-12-21 17:19
我明明对不同的内容作了映射,但是一测试,采集结果就变成一样的了,这是为什么啊?

上面跟你说了修改意见了,将整理箱定位偏好修改为”偏好class"。
原来默认是“偏好id”,偏好不同,采集规则也会相应的做调整。
参看:《修改整理箱的首选项为绝对定位
举报 使用道具
6#
ayaya1212 初级会员 发表于 2016-12-21 18:19:06 | 只看该作者
xandy 发表于 2016-12-21 17:21
上面跟你说了修改意见了,将整理箱定位偏好修改为”偏好class"。
原来默认是“偏好id”,偏好不同,采集规 ...

好的,非常感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 06:07