以前做的一个网络爬虫任务,最近发现所有的线索都采集失败了,我想把这个爬虫规则修改一下,但是加载出来的网页内容显示不全,怎么办?

下面是我做的步骤,看看有没有问题:

1,我用集搜客网络爬虫加载分析规则,参考的教程是这一篇:https://www.gooseeker.com/doc/article-124-1.html
2,我发现集搜客爬虫浏览器显示不全样本页面,我按照这篇采集阿里巴巴外包询价网站的文章选用集搜客采摘浏览器加载网页:https://www.gooseeker.com/doc/article-509-1.html
3,网页内容显示全了,我安装文章的说明,点击定义规则按钮,也看到把集搜客网络爬虫也运行起来了,而且显示了定义规则工作台
4,我在网络爬虫中已经看到了样本页面也显示全了,我就在工作台上把规则搜到,选择菜单“加载”
5,等规则加载上来以后,发现爬虫浏览器中的网页又显示不全了

所以,就没法修改规则了


举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-3-20 16:29

沙发
Fuller 管理员 发表于 2020-3-20 16:28:36 | 只看该作者
截止今天(2020年3月20日),在集搜客官网上可以看到两个浏览器产品:
1,集搜客网络爬虫浏览器:这是一个高性能的网络爬虫软件,内嵌了火狐的内核
2,集搜客采摘浏览器:除了具有网络爬虫功能,还可以辅助手工摘录零散的内容,目前网络爬虫功能还在不断地增加中,相比第一个产品,网络爬虫功能还不够全。内核是最新版Chrome
由于内核不同,集搜客采摘浏览器的适应性更强,如果用爬虫浏览器打不开网页,就尝试用采摘浏览器打开。

因为采摘浏览器的网络爬虫功能还在逐步增加过程中,首先就没有定义规则的能力,那么就需要将采摘浏览器和网络爬虫浏览器配合在一起使用。

采摘浏览器把网页加载出来以后,点击做边栏最上面的定义规则按钮以后,会自动产生一个网页快照,存在了硬盘上,并自动把网络爬虫浏览器运行起来,显示这个网页快照。那么,原来的爬虫浏览器就可以在网页快照上定义规则了。

可见,网络爬虫浏览器是在快照上定义规则,而不是原网页上,所以,加载分析规则的时候要用“加载(仅规则)”,而不能用“加载”,因为“加载”会把原网页加载到浏览器,会显示不全。

举报 使用道具
板凳
Fuller 管理员 发表于 2020-3-20 16:29:55 | 只看该作者
这个问题是我们软件体验需要优化,集搜客网络爬虫软件的下个版本会在搜规则工作台上判断出这种情况,隐藏掉“加载”菜单,这样就不会冲掉已经加载好的快照了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 07:13