我发现集搜客网络爬虫软件加载飞猪网页显示不全,分析规则就失败了,我想修改规则,怎么办?是不是不能采集了?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2020-10-19 15:15

沙发
Fuller 管理员 发表于 2020-10-19 10:01:35 | 只看该作者
飞猪网改版以后,集搜客网络爬虫软件中的浏览器不兼容这个网站,集搜客网络爬虫逐渐会被数据管家替代掉,所以,你用集搜客数据管家加载网页和定义规则
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2020-10-19 10:02:58 | 只看该作者
Fuller 发表于 2020-10-19 10:01
飞猪网改版以后,集搜客网络爬虫软件中的浏览器不兼容这个网站,集搜客网络爬虫逐渐会被数据管家替代掉,所 ...

我看了用集搜客数据管家给阿里巴巴外包询价网站做规则的例子,但是,我不想重新做一个规则,那么怎样用集搜客数据管家编辑老规则?
举报 使用道具
地板
内容分析应用 金牌会员 发表于 2020-10-19 10:25:00 | 只看该作者
本帖最后由 内容分析应用 于 2020-10-19 10:36 编辑
发誓学好内容分析 发表于 2020-10-19 10:02
我看了用集搜客数据管家给阿里巴巴外包询价网站做规则的例子,但是,我不想重新做一个规则,那么怎样用集 ...

可以按如下步骤来加载旧规则:

1. 在数据管家里加载页面, 然后鼠标右键点击”存样本页面“,弹出的提示框点击”确认“






2. 打开集搜客网络爬虫, 在地址栏 ctrl + v  , 加载保存的样本页面
3. 加载规则: 点击加载规则tab的”加载(仅规则)"


QQ截图20201019102423.png (107.35 KB, 下载次数: 729)

QQ截图20201019102423.png
举报 使用道具
5#
huaren 中级会员 发表于 2020-10-19 10:34:01 | 只看该作者
鼠标右键点击”存样本页面“,”存样本页面“的按钮在哪里?
举报 使用道具
6#
Fuller 管理员 发表于 2020-10-19 10:37:14 | 只看该作者
huaren 发表于 2020-10-19 10:34
鼠标右键点击”存样本页面“,”存样本页面“的按钮在哪里?



集搜客数据管家浏览器上有“上下文菜单”,点击鼠标右键就能看到,就像上图蓝框里面的内容。所以,定义规则的时候,不一定非要用左上角的 + 号按钮,可以用上下文菜单。

注意,所谓“上下文”是跟网页内容有关的,如果鼠标点击位置是超链接,上下文菜单就是另一种样子,如果是图片,上下文菜单又不同。而定义规则和存样本页面要显示出来,就要点击网页上的空白位置
举报 使用道具
7#
内容分析应用 金牌会员 发表于 2020-10-19 10:37:21 | 只看该作者
huaren 发表于 2020-10-19 10:34
鼠标右键点击”存样本页面“,”存样本页面“的按钮在哪里?



在页面的任意位置, 点鼠标右键, 就会看到菜单项“存样本页面”



举报 使用道具
8#
Fuller 管理员 发表于 2020-10-19 10:49:37 | 只看该作者
内容分析应用 发表于 2020-10-19 10:37
在页面的任意位置, 点鼠标右键, 就会看到菜单项“存样本页面”

当前版本并不是任何位置都能显示“存样本页面”和“定义规则”,比如,在超链接上就不是,要到下一个版本,可以把这两个菜单项放到任何上下文菜单中
举报 使用道具
9#
huaren 中级会员 发表于 2020-10-19 10:56:59 | 只看该作者
现在采集规则已经加载了,也后续分析了,没有错误,也重新保存了。怎么启动采集,直接点击爬虫软件上的的“爬数据”按钮吗?
举报 使用道具
10#
maomao 论坛元老 发表于 2020-10-19 15:15:32 | 只看该作者
本帖最后由 maomao 于 2020-10-19 15:18 编辑

按上面所说,待采集的网页在爬虫软件打不开。所以不能在爬虫软件直接点击“爬数据” 。而是,保存完规则后,要返回数据管家,在数据管家的左侧,点击任务管理,开始采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 04:19