举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2018-7-19 19:51

沙发
alexchang 新手上路 发表于 2016-5-6 11:21:27 | 只看该作者
请问有什么方法使层级采集运行速度加快吗?看着打数机一页一页地加载再从头浏览到尾感觉效率不高
举报 使用道具
板凳
Fuller 管理员 发表于 2016-5-6 12:13:57 | 只看该作者
alexchang 发表于 2016-5-6 11:21
请问有什么方法使层级采集运行速度加快吗?看着打数机一页一页地加载再从头浏览到尾感觉效率不高 ...

你是看到滚屏吧?从头滚到底?

如果是手工启动的抓取,是否滚屏是用DS打数机的配置菜单进行配置的,配置好以后,每个抓取规则都用。

你还可以启动爬虫群,把要抓取的规则设置上调度参数,就会放入爬虫罗盘,然后在DS客户端,启动多个爬虫群窗口,他们就等待接受任务了。多个窗口并行抓取。

配置方法参看:http://www.gooseeker.com/doc/article-197-1.html

进入会员中心就能看到爬虫管理
举报 使用道具
地板
alexchang 新手上路 发表于 2016-5-6 13:43:13 | 只看该作者
Fuller 发表于 2016-5-6 12:13
你是看到滚屏吧?从头滚到底?

如果是手工启动的抓取,是否滚屏是用DS打数机的配置菜单进行配置的,配置 ...

谢谢,我是用的最初级的层级采集,第一规则抓取url给第二规则作为线索,然后手动用打数机“单搜”,我看了一下一共60条线索,但是第二规则抓取的时候每条线索走得都很慢,一条线索差不多得3-4分钟甚至更多,这能否通过运用爬虫群提高效率?
举报 使用道具
5#
gz51837844 管理员 发表于 2016-5-6 14:39:40 | 只看该作者
你看一下打数机DS菜单项的超时时长参数设置的是多少
缺省应该是1分钟
你的描述是一条线索要3-4分钟,那可能是这个参数设置得太大了
举报 使用道具
6#
alexchang 新手上路 发表于 2016-5-6 15:08:39 | 只看该作者
gz51837844 发表于 2016-5-6 14:39
你看一下打数机DS菜单项的超时时长参数设置的是多少
缺省应该是1分钟
你的描述是一条线索要3-4分钟,那可能 ...

好的,谢谢!
举报 使用道具
7#
BigTwo_2 新手上路 发表于 2018-4-8 15:15:43 | 只看该作者
有办法把多层级和模拟点击联系起来的办法吗?
举报 使用道具
8#
数据集 高级会员 发表于 2018-4-8 15:23:44 | 只看该作者
BigTwo_2 发表于 2018-4-8 15:15
有办法把多层级和模拟点击联系起来的办法吗?

层级抓取和模拟点击不冲突,可以直接做在一个规则里面结合使用。
举报 使用道具
9#
BigTwo_2 新手上路 发表于 2018-4-8 15:39:23 | 只看该作者
数据集 发表于 2018-4-8 15:23
层级抓取和模拟点击不冲突,可以直接做在一个规则里面结合使用。

请问一下我在模拟点击中定义第二规则时,将网页跳转到目标页面的过程中

无法在MS谋数台中打开目标界面怎么办呢?
举报 使用道具
10#
数据集 高级会员 发表于 2018-4-8 15:52:08 | 只看该作者
BigTwo_2 发表于 2018-4-8 15:39
请问一下我在模拟点击中定义第二规则时,将网页跳转到目标页面的过程中

无法在MS谋数台中打开目标界面怎 ...

在ms谋数台中取消内容定位,就可以自由跳转


6.png (8.74 KB, 下载次数: 970)

6.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:31