本帖最后由 ym 于 2016-2-1 16:29 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集 > 能不能把所有翻页存到一个XML文件里

1 我要抓的这个版块有120页,我看打数机在模拟翻页然后抓取,难道不是后台自动抓取120页吗,为什么要在图表上显示翻页的过程? 因为作为用户是不需要看到翻页过程的
2 貌似是一页的内容放在一个XML里,能不能所有页的内容都存储到一个XML里?
3翻到16页时 我切换了窗口  再切换回来时 发现打数机已停止翻页, 为什么会这样,是不是要求焦点一直保持在当前的页面?
新人一个 ,请管理员解答,谢谢!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-1-23 21:00

沙发
xandy 论坛元老 发表于 2016-1-23 20:43:59 | 只看该作者
本帖最后由 xandy 于 2016-12-21 17:32 编辑

1. 你看到DS翻页的过程就是DS在不断翻页采集数据的过程;
2. 采集下来的数据,你可以通过会员中心将所有的xml合并到一起,参看《xml转换为excel
举报 使用道具
板凳
Fuller 管理员 发表于 2016-1-23 20:50:49 | 只看该作者
针对你的问题,答复如下:

1,GooSeeker网页抓取软件是下载到你的电脑上运行的,所以,你能看到它在一页页翻,那是在抓数据,不能关闭。抓取过程不是在服务器后台运行的。如果你不想自己运行,委托我们代采是可以的,是收费项目

2,还有一种方法,是启用云存储,请登录 http://www.gooseeker.com ,点击首页右上角的会员名字处,进入会员中心,进入 爬虫管理-〉规则管理 ,可以打开爬虫群的自动入库过程,入好库以后可以导出成excel。具体参看:《xml转换为excel

3,不是每个网站都要求保持焦点,确实有些网站要求一定要有焦点,如果发现这种情况,要用爬虫群的调度参数:全程模拟点击和高仿模拟点击 。也是在 会员中心,进入 爬虫管理-〉规则管理  那里,找到这个规则,点击调度进行设置
举报 使用道具
地板
gdzxLyzh 初级会员 发表于 2016-1-23 21:00:31 | 只看该作者
好的,感谢楼上2位的解答,我明白80%了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:18