14 39693

采集多层级网页数据

ym 于 2015-10-23 09:47 发表 [复制链接]
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2018-7-19 19:51

alexchang 新手上路 发表于 2016-5-6 11:21:27 | 显示全部楼层
请问有什么方法使层级采集运行速度加快吗?看着打数机一页一页地加载再从头浏览到尾感觉效率不高
举报 使用道具
Fuller 管理员 发表于 2016-5-6 12:13:57 | 显示全部楼层
alexchang 发表于 2016-5-6 11:21
请问有什么方法使层级采集运行速度加快吗?看着打数机一页一页地加载再从头浏览到尾感觉效率不高 ...

你是看到滚屏吧?从头滚到底?

如果是手工启动的抓取,是否滚屏是用DS打数机的配置菜单进行配置的,配置好以后,每个抓取规则都用。

你还可以启动爬虫群,把要抓取的规则设置上调度参数,就会放入爬虫罗盘,然后在DS客户端,启动多个爬虫群窗口,他们就等待接受任务了。多个窗口并行抓取。

配置方法参看:http://www.gooseeker.com/doc/article-197-1.html

进入会员中心就能看到爬虫管理
举报 使用道具
alexchang 新手上路 发表于 2016-5-6 13:43:13 | 显示全部楼层
Fuller 发表于 2016-5-6 12:13
你是看到滚屏吧?从头滚到底?

如果是手工启动的抓取,是否滚屏是用DS打数机的配置菜单进行配置的,配置 ...

谢谢,我是用的最初级的层级采集,第一规则抓取url给第二规则作为线索,然后手动用打数机“单搜”,我看了一下一共60条线索,但是第二规则抓取的时候每条线索走得都很慢,一条线索差不多得3-4分钟甚至更多,这能否通过运用爬虫群提高效率?
举报 使用道具
gz51837844 管理员 发表于 2016-5-6 14:39:40 | 显示全部楼层
你看一下打数机DS菜单项的超时时长参数设置的是多少
缺省应该是1分钟
你的描述是一条线索要3-4分钟,那可能是这个参数设置得太大了
举报 使用道具
alexchang 新手上路 发表于 2016-5-6 15:08:39 | 显示全部楼层
gz51837844 发表于 2016-5-6 14:39
你看一下打数机DS菜单项的超时时长参数设置的是多少
缺省应该是1分钟
你的描述是一条线索要3-4分钟,那可能 ...

好的,谢谢!
举报 使用道具
BigTwo_2 新手上路 发表于 2018-4-8 15:15:43 | 显示全部楼层
有办法把多层级和模拟点击联系起来的办法吗?
举报 使用道具
数据集 高级会员 发表于 2018-4-8 15:23:44 | 显示全部楼层
BigTwo_2 发表于 2018-4-8 15:15
有办法把多层级和模拟点击联系起来的办法吗?

层级抓取和模拟点击不冲突,可以直接做在一个规则里面结合使用。
举报 使用道具
BigTwo_2 新手上路 发表于 2018-4-8 15:39:23 | 显示全部楼层
数据集 发表于 2018-4-8 15:23
层级抓取和模拟点击不冲突,可以直接做在一个规则里面结合使用。

请问一下我在模拟点击中定义第二规则时,将网页跳转到目标页面的过程中

无法在MS谋数台中打开目标界面怎么办呢?
举报 使用道具
数据集 高级会员 发表于 2018-4-8 15:52:08 | 显示全部楼层
BigTwo_2 发表于 2018-4-8 15:39
请问一下我在模拟点击中定义第二规则时,将网页跳转到目标页面的过程中

无法在MS谋数台中打开目标界面怎 ...

在ms谋数台中取消内容定位,就可以自由跳转


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-12-3 10:05