第二级网页显示的内容不同,抓取总是失败怎么办?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-16 16:35

wangyong 版主 发表于 2015-9-16 16:35:39 | 显示全部楼层
本帖最后由 wangyong 于 2015-9-19 20:12 编辑

针对不同结构的网页,可以在第二级主题名下编写多个主题名相同,规则编号不同的抓取规则。比如已经做好的第二级规则主题名是,集搜客第二级,规则编号是:规则_1,但是还有和当前规则样本页不同的结构的第二级网页,这时再编写一个主题名为集搜客第二级,规则编号为规则_2的抓取规则就可以有效抓取两种结构的网页。
参看教程:http://www.gooseeker.com/cn/node ... v4/multischema.html
要注意的是:
做主题名相同规则编号不同的规则时,比较两种网页结构的不同,挑选两种网页独有的内容作为抓取内容并勾上关键内容,爬虫会由此来判断第一级抓取下来的线索是分配给第二级规则的规则_1还是规则_2。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 18:08