网络爬虫软件产品技术动态和资讯 - 集搜客GooSeeker网络爬虫

网上开店，今天我要给大家讲一个网店有无到有，从规划到成交第一单所需要做的和所需要注意的环节，我大致分为10个步骤：第一步、筹划篇这个步骤非常重要，如果选择对了，那么你的店铺就成功了一半。主要包括定位和 ...

2017-8-9 15:27

自2008年5月1日《中华人民共和国政府信息公开条例》开始施行以来，人民群众对于政府相关工作的知情权、参与权、表达权、监督权都有了更好的保障。同时随着新媒体时代的到来，从中央到地方各区域政府也纷纷开始加强网 ...

2017-7-12 16:02

很多人问过爬虫能做什么，还有不少人对爬虫的作用有误解，关于爬虫，我们不做深入的技术探讨，而是给大家科普一下在实际应用中关于爬虫的基本知识。一、爬虫是什么爬虫，全称网络爬虫，又称网页蜘蛛，即web spi ...

2017-5-19 16:13

一、什么是数据埋点数据埋点实际上就是pm或运营分析人员，基于统计分析需要，对用户行为的每一个事件进行埋点布置，并通过SDK上报埋点的数据结果，进行分析，并进一步优化产品或指导运营。二、数据埋点技术 2 ...

2017-5-18 11:28

一、操作步骤如果网页上的超链接没有独立网址，而是一段JavaScript代码，比如：onclick=”javascript:void(0)”，这种情况，想要采集超链接网页里的信息，只能用连续动作的点击动作，如果点进去超链接网页并采集到 ...

2017-1-16 10:17

一、操作步骤如何采集鼠标悬浮后的浮窗里显示的信息？这个需要用到连续动作中的悬浮功能。下面以微博搜索为例，演示如何采集浮窗里显示的博主信息。二、案例规则+操作步骤第一级采集规则：教程悬浮1第二级采集规 ...

2017-1-13 14:14

一、基本概念 1.1 数据采集数据采集指的是我们在“创建规则”工作台定义的抓取内容。 1.2 爬虫路线爬虫路线指的是在“爬虫路线”工作台定义的线索，包括下级线索、翻页线索和模拟点击等。 1.3 连续动作连续动作指 ...

2017-1-10 11:29

各个动作类型的界面基本上是大同小异的，下面以点击动作为例介绍一下界面上的功能按钮。主要是：目标主题名新建、删除、排序等操作按钮定位表达式、动作名称、高级设置等与某个动作相关的设置目标主题名连续动作 ...

2017-1-9 15:39

设置连续动作就是为了模拟人在浏览网页时的各种操作，从而加载出想要的网页信息，最后再进行采集，所以，总体上可以分为两大操做步骤，第一步是模拟人浏览网页的操作，通过在规则里设置连续动作来实现；第二步是采集 ...

2017-1-6 10:01

常见的网页大多数在页面下方会有翻页的按钮，比如“下一页”、“加载更多”，这类网页设置翻页就可以搞定，但是瀑布流网页没有这些按钮，而是随着鼠标滚动会不停的加载更多内容，这种很长很长的没有翻页按钮的网页就 ...

2017-1-4 11:44

一、操作步骤用中国知网的期刊为例，展示连续动作中选择动作和爬虫路线中翻页的组合。本次教程要实现的是先检索2016年发表的期刊，再对检索结果进行采集，流程如下图所示：为了实现这个，需要建立两级规则，第一级 ...

2017-1-3 18:13

一、操作步骤如果网页上有搜索框，并且搜索结果页面没有独立网址，想要采集搜索结果，直接做规则是采集不到的，要先做连续动作（输入+点击）来实现自动输入关键词并搜索，然后再采集数据。下面用京东搜索为例，演示 ...

2016-12-30 12:09

下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面，全面地介绍连续动作的知识点。一、连续动作的适用范围越来越多的网页使用了JS动态技术，即网页信息不是立马显示出来 ...

2016-12-29 15:38

新浪微博页面的组合采集攻略如下（绿框是页面名称，橙色字体是采集结果表中的网址字段）： 1、从“微博关键词搜索结果”展开采集更多页面信息方法：从“微博关键词搜索结果”的数据表中，把“博主主页”这列的网 ...

2016-12-28 16:45

最近要对微博和京东的手机评论分别做分析，类似语义研究，需要对文本数据进行分词，再找出有用的词语，进行标签分类，后面还有一堆的处理步骤，此处省略一万字，但是，单单前面分词这里就弄得头大，原因是本人小白不 ...

2016-11-23 11:06

资讯