[img]file:///D:\657768026\Image\Group\5_({0U8Z~JT[J0CBBDB%%G0.png[/img]请问一下,二级网页的构成都不同有整一个模块的,也有分条的,该如何制定规则?资质愚钝,连续动做教程中没找到我要做的。求解答,谢谢

QQ图片20170424111135.png (11.07 KB, 下载次数: 446)

网页

网页
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-4-24 21:06

沙发
scraper 论坛元老 发表于 2017-4-24 11:45:24 | 只看该作者
你直接发两个结构不同的网址出来
举报 使用道具
板凳
quyixuan 金牌会员 发表于 2017-4-24 14:49:41 | 只看该作者
网页结构不同就在同一个主题名下面多做几个规则编号来适应不同的结构
举报 使用道具
地板
qq1055803434 初级会员 发表于 2017-4-24 20:55:19 | 只看该作者
quyixuan 发表于 2017-4-24 14:49
网页结构不同就在同一个主题名下面多做几个规则编号来适应不同的结构

如何做,求详解
举报 使用道具
5#
qq1055803434 初级会员 发表于 2017-4-24 20:56:25 | 只看该作者
scraper 发表于 2017-4-24 11:45
你直接发两个结构不同的网址出来

http://www.jobui.com/jobs?jobKw= ... %BD&match=title
招聘网站的集成者,多个网页结构。

举报 使用道具
6#
Fuller 管理员 发表于 2017-4-24 21:06:32 | 只看该作者
你是想抓岗位描述?把岗位描述中的一条条分别抓下来吗?

如果是这样,很难用规则逐条抓,因为这些岗位描述是发布者自己任意排版的,并没有统一的排版结构。只能整块抓
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 17:58