网页数据提取规则定义是在MetaStudio的Bucket Editor工作台上进行的,下图是界面布局图,显然,V4.x版本的Bucket Editor工作台与V3.x版本的并无二致,但是,V4.x版本与V3.x版本的区别正是在该工作台上,区别在于在信息属性的特性编辑弹出窗口中编辑自定义的网页数据提取规则。本节展示的界面控制元素的使用方法在后续章节中详细讲解。
上图是为威客任务和外包项目搜索网站定义的信息结构,如果是一个空白的工作台,工作台上只有newBckt按钮,按该按钮,将弹出一个对话框,选择欲创建的整理箱的类型(在线版只有FreeFormat类型),并且给整理箱起一个名字。如果在工作台上创建多个整理箱,则系统会自动判断整理箱名字是否重复,重名是不允许的。
说明:整理箱名字中可使用的字符包括所有符合XML标签命名规范的字符,例如,英文字母和汉字等
创建整理箱后,工作台左栏将显示一个标签窗口,标签值就是本整理箱的类型值(FreeFormat或者ListBucket(仅限企业版)),该窗口称作信息属性映射表窗口。该窗口由多个部分组成的,从上到下分别是:
重建:能够清空当前的整理箱(而不是整个Bucket Editor工作台),以便重新定义其信息结构
注意:重建整理箱将清空已经建立的网页数据提取规则。
工作台右栏将显示各种操作控制元素,分别是: