我抓取了这样的数据,不过车型,品牌,车系都没分,这个比较头疼。

我想问采集时怎样能区分品牌类别?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-12-3 10:38

ym 版主 发表于 2015-12-3 10:33:19 | 显示全部楼层
本帖最后由 ym 于 2015-12-3 10:36 编辑

方法1:你可以在规则里多建一个整理箱,用来抓品牌车系,然后手工把品牌车系的网址弄出来,然后导入到规则里,DS采数据时就能把品牌车系采到,而且数据文件里的fullpath字段就是采集的网址,根据这个也能区分,了解多个整理箱看http://www.gooseeker.com/doc/for ... 4%E7%90%86%E7%AE%B1


方法2:你也可以看看连续动作的教程,可以设置点击,采集的时候就自动点击品牌车系 http://www.gooseeker.com/doc/article-141-1.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
Fuller 管理员 发表于 2015-12-3 10:38:28 | 显示全部楼层
如果你的意思是说一个字段的文字中既有品牌也有车系,要把这个字符串切开,我建议在excel中切,比较好切,因为是用空格隔开的。在抓取规则中分成3个抓取内容也可以,内容映射是一样的,但是要各自做自定义xpath用sub-string()函数,xpath的字符串函数很弱,所以,自定义xpath会写的很长
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-22 03:52