文档

【第10期培训】XML基础知识培训
【第10期培训】XML基础知识培训
XML,即可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。掌握XML基础能更好地理解和掌握GooSeeker爬虫,从而轻松获取网页数据。 ... ... ... ... ... ...

2016-4-14 14:28

【第9期培训】xpath基础知识培训
【第9期培训】xpath基础知识培训
XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言)文档中某部分位置的语言。XPath基于XML文档的树状结构,提供在数据结构树中找寻节点的能力。学会xpath,在用集搜客制作规则时就能够自定义xpath路径 ...

2016-4-7 11:56

【第8期培训】GooSeeker入门及HTML基础培训
【第8期培训】GooSeeker入门及HTML基础培训
网页采集是针对网页结构(HTML)进行提取数据,掌握html基础能更好地理解和掌握gooseeker爬虫,从而轻松获取网页数据,下面为大家讲解gooseeker入门要领以及html基础知识。 ... ... ... ... ... ... ... ... ... ...

2016-3-31 09:57

连续动作的合用表达式
连续动作的合用表达式
1,什么是合用表达式 从《连续动作的重复次数》一文可以看出,针对网页上的一个位置可以做很多次相同动作,如果重复次数设置得过大,或者设置成无限次,那么可以设置一个跳出条件,防止无限止地做无效动作。 这是一 ...

2016-2-1 11:49

连续动作的重复次数
连续动作的重复次数
连续动作这个概念包含“连续”和“多层”两个核心,是不止一次和不止一个的意思,在网页的一个动作施加点上可以连续做多次动作,在指定动作施加点的XPath表达式时,就要考虑是否应该用XPath表达式 ... ... ... ... ...

2016-2-1 10:17

连续动作的模拟点击
连续动作的模拟点击
1,界面说明 如上图,针对点击和提交动作类型,DS打数机的模拟点击动作方法可以选择,如果勾选模拟点击,那么尽可能模拟人的点击动作。有些网站对动作的检查很严格,用来判断是不是爬虫的动作,以便达到屏蔽爬虫的 ...

2016-1-27 18:28

连续动作的内容表达式
连续动作的内容表达式
这是一个可选项,用户可以不用填写。 如上图,在高级设置选项中有内容表达式一项。用户可以输入一个XPath表达式,通过这个XPath表达式,DS打数机把HTML节点中的内容抓取下来,作为动作施加点的内容填写到结果文件 ...

2016-1-27 18:26

避免不合适的定位标志影响抓取规则
避免不合适的定位标志影响抓取规则
大家经常会问:看起来一个很普通的表格,要抓取每一行的每个单元格,但是发现有些单元格的内容是重复的。这是一个常见问题,原因是每个单元格的显示样式是一样的,编写网页html的工程师使用了相同的class或者id,而G ...

2016-1-27 15:12

加载分析失败线索
加载分析失败线索
DS打数机抓取网页的时候,如果遇到网页结构与抓取规则不符,就会产生错误日志: Timeout to load the page如下图:使用MS谋数台的菜单:工具-加载规则-按线索号 可以加载分析失败原因。输入上述线索号,后续 ...

2016-1-23 11:58

怎样抓取下拉菜单被选择项的值
怎样抓取下拉菜单被选择项的值
1,为什么不能用XPath抓取SELECT的被选项 XPath相比于正则表达式,在抓取网页内容时更加易用,GooSeeker网络爬虫整个都采用XPath表达式抓取内容。但是有些HTML动作控件的内容用XPath抓取不到的,SELECT下面的选中 ...

2016-1-3 17:47

连续动作的额外延时
连续动作的额外延时
1,什么是额外延时 DS打数机在运行过程中,会为每个动作步骤都插入500毫秒延时,防止内容加载过慢而造成漏抓。但是,对于一些特殊的操作,可能需要设置更长的延时,用户可以给每个动作单独设置延时。如下图 应该 ...

2016-1-3 17:24

为连续动作规定必做动作
为连续动作规定必做动作
1,什么是必做动作 在《动作施加点定位用XPath表达式》一文,我们使用了点击日历的例子,我们继续使用此例,如下图 在做连续动作的时候,一定要执行第一个步骤,才能把日历弹出来,才有机会选择下拉菜单。那么, ...

2016-1-3 17:16

用XPath定位到动作施加点
用XPath定位到动作施加点
1,什么是动作施加点定位用XPath表达式每创建一个动作步骤,就必须输入一个XPath定位表达式,如上图,这个定位表达式可以在网页上确定动作的施加点。我们在《连续动作的概念》一文反复强调:连续和多层。举个例子, ...

2016-1-3 16:17

连续动作前和连续动作后的主题名
连续动作前和连续动作后的主题名
1,动作前后采用不同主题名动作执行前和动作执行后通常采用不同主题名,比如动作执行前:微博兴趣搜索_测试悬浮信息动作执行后:微博兴趣搜索_测试悬浮信息_悬浮动作有人说:为什么要做成两级抓取?其实这跟两级抓取 ...

2016-1-3 16:10

加载规则历时过长的解决方法
加载规则历时过长的解决方法
如果网页上有很多JavaScript代码要执行,比如,淘宝、天猫、各种社交网站等,网页好久加载不完。用火狐浏览器加载这样的网页的话,会看到地址输入栏那里有个旋转的图标 ... ... ... ... ...

2015-12-20 20:54

热门排行

关注我们

GMT+8, 2024-4-25 10:19