搜索关键词后,有两种二级页面,其中一种是有目标信息的页面,一种是报错的页面。我在同一在主题下做不同规则,一个抓取数据,一个用于返回。因为报错的页面较多,后期处理数据很麻烦,如何将两个规则抓取的数据分开,或只需其中一个抓取数据?


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2019-2-20 14:32

沙发
maomao 论坛元老 发表于 2019-2-20 13:28:11 | 只看该作者
按这个https://www.gooseeker.com/doc/article-329-1.html教程,把抓下来的XML数据转成EXCEL,会自动一个规则一个EXCEL,自动分开
举报 使用道具
板凳
hiworld2001 初级会员 发表于 2019-2-20 13:36:24 | 只看该作者
maomao 发表于 2019-2-20 13:28
按这个https://www.gooseeker.com/doc/article-329-1.html教程,把抓下来的XML数据转成EXCEL,会自动一个规 ...

谢谢。除了这个方法,请问还有其他办法吗?因为错误页面远多于有效页面,如果能一开始就分开,处理效率会高很多。
举报 使用道具
地板
maomao 论坛元老 发表于 2019-2-20 14:05:38 | 只看该作者
对报错的页面做规则的时候,不用勾任何关键内容,会很快翻过去
举报 使用道具
5#
Fuller 管理员 发表于 2019-2-20 14:25:57 | 只看该作者
maomao 发表于 2019-2-20 14:05
对报错的页面做规则的时候,不用勾任何关键内容,会很快翻过去

不勾关键内容不行,会用来抓正确内容。就是靠关键内容来区分两个规则
举报 使用道具
6#
Fuller 管理员 发表于 2019-2-20 14:27:09 | 只看该作者
没有其他分开的方法了,需要入库以后才能分拣开
举报 使用道具
7#
hiworld2001 初级会员 发表于 2019-2-20 14:32:20 | 只看该作者
好吧,谢谢maomao、Fuller,本想走一下捷径的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-6 02:28