网络爬虫软件产品技术动态和资讯 - 集搜客GooSeeker网络爬虫

如果网页上有搜索框，但是搜索结果页面没有独立网址，想要采集搜索结果，直接做采集任务是采集不到的，要先做连续动作（输入+点击）来实现自动输入关键词并搜索，然后才能采集数据。下面以人民网关键词搜索为例，演 ...

2021-2-7 18:12

采集微博博主的所有微博需要翻页，而且需要开启网络爬虫软件的自动滚屏功能。因为微博博主发布的微博消息列表很长，不滚屏就不会加载完整。翻页和滚屏过程中会遇到加载内容中断，比如，加载内容的旋转图标一直在旋转 ...

2021-1-29 17:48

我们以这个网页为例http://www.neeq.com.cn/disclosure/announcement.html，讲解怎样自动下载网页上的文件。如果是人工下载这些文件，需要在网页上逐个点击文件图标，启动下载。而集搜客网络爬虫会自动采集文件的链 ...

2021-1-28 16:19

上篇教程讲了怎么下载途牛网上的一个大图，在此基础上，本篇教程讲怎么下载大图下面的整齐排列的小图。按前面单图下载的教程，设置采集第一个小图，然后对这些小图做样例复制，就可以把小图都采集下来。所以本篇教程 ...

2021-1-25 15:49

集搜客爬虫不仅能抓到网页上的文本、链接，还可以批量下载图片。无论是列表页还是详情页上的图片，只要能获取图片网址。都可以用集搜客爬虫来下载图片。本篇教程以途牛网的自助游网页为案例，介绍一下如何用集搜客来 ...

2020-12-31 18:05

前面有教程讲了怎样用样例复制来采集列表数据，除了用样例复制，还可以用定位映射来采集列表数据。下面以B站视频搜索列表作为案例来讲解，操作步骤如下：1.操作步骤2.操作步骤详解• 采集规则：B站视频搜索列表_教 ...

2020-12-19 11:59

集搜客网络爬虫易于操作的一个关键特色是：直观标注，在网页上点选内容，就能生成爬虫规则。其实还有更加高效的采集方法：有些网页采用了手机网站的实现模式，采用抓包功能 ...

2020-12-17 10:39

做采集规则的时候，直观标注很方便。在网页上点一下鼠标，就把要爬取的内容标记好了，爬虫运行的时候，自动去采集这些内容。但是有些内容（比如网页上的超链接），并没有直接显示在网页上，或者有些内容即使显示了， ...

2020-12-15 19:04

做好一个任务后，如果想要修改，怎么办？首先，要找到这个任务。在任务管理页面找。1. 进入任务管理页面2. 找到任务选中任务名，本例中，要对JD-牛仔裤男这个任务进行修改。任务比较多的时候，可以用任务名里的几个 ...

2020-12-3 11:45

1. 进入任务管理页面2. 选中任务。设置调度设置好调度参数，确认。自动弹出并发的爬虫群窗口，采集数据。本例中的任务名：JD-牛仔裤男。3. 调度参数说明并发爬虫窗口：这是爬虫群模式的特色。用几个爬虫窗口去并行采 ...

2020-12-2 19:30

做好采集规则，并且保存后，怎么启动采集？目前有三种放式。方式一、点击保存后，页面自动弹出操作指引，按指引去任务管理页面，启动采集。1. 点击数据管家侧边栏的任务管理按钮2. 选中任务名，点击任务名后的菜单， ...

2020-12-2 16:55

这一章我们将讲解怎样通过映射定位标志，相当于在网页上精准地划定网页块范围，可以提高数据采集规则的精确度和适应性，降低网页变化带来的影响。下面用B站视频作为案例，详细讲解操作步骤。 ... ... ... ... ... .. ...

2020-12-1 16:35

线索和网址就是一回事，网页的网址其实就是爬虫要爬行的线索。做好了一个规则，不仅仅是用来采集样本网页的，还可以采集与样本网页结构相同的网页，只需把网址添加到规则中就行。例如，做了一个采集某个京东商品页面 ...

2020-12-1 12:09

在网络爬虫采集数据过程中，数据首先是以XML格式保存到你本地电脑的DataSraperWorks目录下，一页一个XML文件，在你导出excel文件时，这些XML文件自动打包上传。 ... ... ... ... ... ... ...

2020-11-30 15:39

集搜客数据管家（增强版网络爬虫软件）跟老版本不同，省掉了手工压缩成zip文件的操作，实现了一键打包入库。可以将采集得到的原始的xml文件转换成excel文件。如果想直接使用xml文件，跳到文末看关于xml文件的内容。 ...

2020-11-30 10:44

资讯