快捷导航

怎么在同一个主题名下建立多个规则

2016-7-15 12:10| 发布者: ym| 查看: 2413| 评论: 3

摘要: 主题、规则、线索三者的关系 主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,以覆盖多种网页结构,这样 ...

当我们采集某类具有多种网页结构的网页时,就需要针对每种网页结构做一个采集规则,把多个规则建立在同一个主题下,采集数据时只需运行这个主题名,爬虫就会自动调用里面的规则去采集对应的网页结构。可参考采集同一网站的不同网页结构信息

1)创建新规则:点击MS谋数台的文件菜单->新建,在工作台清空后就可以定义新的规则;或者是重启MS谋数台,再来重新定义新规则;在命名主题窗口中填相同的主题名,不同的规则编号。


2)在原有规则的基础上修改:把新网址粘贴到网址框中,加载网页完成后,再点击文件菜单->刷新网页结构->分析页面,此时可能会由于结构不同而报错,定义新规则都可以忽略这些,你要做的是修改规则编号,然后修改规则的映射。

最后保存规则,去搜规则窗口搜索主题名,就能看到同一个主题名有多个规则,修改规则也是根据不同规则编号,一个个加载上来修改。


若有疑问可以集搜客网络爬虫

鲜花
1

握手
1

雷人

路过

鸡蛋

刚表态过的朋友 (2 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-3-20 22:44
Janwin: 那采集的时候信息会放在同一文档了吗
假设你是为了应对网页结构有变体,定义了多个有相同主题名的规则,那么DS打数机运行的时候,只会选择其中一个,每个网页只会生成一个结果文件
评论 lilyzoo 2017-3-20 21:18
采集的时候, 每个页面会生成一个xml结果文件, 把这些结果文件入到数据仓库, 导出时在同一张excel表
评论 Janwin 2017-3-20 20:41
那采集的时候信息会放在同一文档了吗

查看全部评论(3)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-20 11:38