我抓取了这样的数据,不过车型,品牌,车系都没分,这个比较头疼。

我想问采集时怎样能区分品牌类别?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-12-3 10:38

ym 版主 发表于 2015-12-3 10:33:19 | 显示全部楼层
本帖最后由 ym 于 2015-12-3 10:36 编辑

方法1:你可以在规则里多建一个整理箱,用来抓品牌车系,然后手工把品牌车系的网址弄出来,然后导入到规则里,DS采数据时就能把品牌车系采到,而且数据文件里的fullpath字段就是采集的网址,根据这个也能区分,了解多个整理箱看http://www.gooseeker.com/doc/for ... 4%E7%90%86%E7%AE%B1


方法2:你也可以看看连续动作的教程,可以设置点击,采集的时候就自动点击品牌车系 http://www.gooseeker.com/doc/article-141-1.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
Fuller 管理员 发表于 2015-12-3 10:38:28 | 显示全部楼层
如果你的意思是说一个字段的文字中既有品牌也有车系,要把这个字符串切开,我建议在excel中切,比较好切,因为是用空格隔开的。在抓取规则中分成3个抓取内容也可以,内容映射是一样的,但是要各自做自定义xpath用sub-string()函数,xpath的字符串函数很弱,所以,自定义xpath会写的很长
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-5 17:31