快捷导航
本帖最后由 ym 于 2016-2-1 16:29 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集 > 能不能把所有翻页存到一个XML文件里

1 我要抓的这个版块有120页,我看打数机在模拟翻页然后抓取,难道不是后台自动抓取120页吗,为什么要在图表上显示翻页的过程? 因为作为用户是不需要看到翻页过程的
2 貌似是一页的内容放在一个XML里,能不能所有页的内容都存储到一个XML里?
3翻到16页时 我切换了窗口  再切换回来时 发现打数机已停止翻页, 为什么会这样,是不是要求焦点一直保持在当前的页面?
新人一个 ,请管理员解答,谢谢!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-1-23 21:00

xandy 论坛元老 发表于 2016-1-23 20:43:59 | 显示全部楼层
本帖最后由 xandy 于 2016-12-21 17:32 编辑

1. 你看到DS翻页的过程就是DS在不断翻页采集数据的过程;
2. 采集下来的数据,你可以通过会员中心将所有的xml合并到一起,参看《xml转换为excel
举报 使用道具
Fuller 管理员 发表于 2016-1-23 20:50:49 | 显示全部楼层
针对你的问题,答复如下:

1,GooSeeker网页抓取软件是下载到你的电脑上运行的,所以,你能看到它在一页页翻,那是在抓数据,不能关闭。抓取过程不是在服务器后台运行的。如果你不想自己运行,委托我们代采是可以的,是收费项目

2,还有一种方法,是启用云存储,请登录 http://www.gooseeker.com ,点击首页右上角的会员名字处,进入会员中心,进入 爬虫管理-〉规则管理 ,可以打开爬虫群的自动入库过程,入好库以后可以导出成excel。具体参看:《xml转换为excel

3,不是每个网站都要求保持焦点,确实有些网站要求一定要有焦点,如果发现这种情况,要用爬虫群的调度参数:全程模拟点击和高仿模拟点击 。也是在 会员中心,进入 爬虫管理-〉规则管理  那里,找到这个规则,点击调度进行设置
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:00:31 | 显示全部楼层
好的,感谢楼上2位的解答,我明白80%了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具抓取关键
  • 用于清洗文本内容的Excel函数公式

热门用户

GMT+8, 2019-8-20 01:12