第二级网页显示的内容不同,抓取总是失败怎么办?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-16 16:35

沙发
shenzhenuser1 版主 发表于 2015-9-16 16:35:39 | 只看该作者
本帖最后由 wangyong 于 2015-9-19 20:12 编辑

针对不同结构的网页,可以在第二级主题名下编写多个主题名相同,规则编号不同的抓取规则。比如已经做好的第二级规则主题名是,集搜客第二级,规则编号是:规则_1,但是还有和当前规则样本页不同的结构的第二级网页,这时再编写一个主题名为集搜客第二级,规则编号为规则_2的抓取规则就可以有效抓取两种结构的网页。
参看教程:http://www.gooseeker.com/cn/node ... v4/multischema.html
要注意的是:
做主题名相同规则编号不同的规则时,比较两种网页结构的不同,挑选两种网页独有的内容作为抓取内容并勾上关键内容,爬虫会由此来判断第一级抓取下来的线索是分配给第二级规则的规则_1还是规则_2。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选

热门用户

GMT+8, 2026-4-17 13:14