快捷导航
50 20399

线索是什么意思?

gdzxLyzh 于 2016-1-23 20:18 发表 [复制链接]
Fuller 管理员 发表于 2016-10-23 10:09:41 | 显示全部楼层
beanbing 发表于 2016-10-23 08:39
嗯  没有理解,如果你要采集瀑布流的网址,那你线索里(也就是滚屏参数要输入多少呢?) ...

瀑布流滚不到底的,滚屏次数就是-1,永远抓不完
举报 使用道具
beanbing 中级会员 发表于 2016-10-23 13:40:35 | 显示全部楼层
Fuller 发表于 2016-10-23 10:09
瀑布流滚不到底的,滚屏次数就是-1,永远抓不完

就是有知道多少才输入?比如楼上说的2000?  那如果不是瀑布流,可以直接输入-1  会有什么影响吗
举报 使用道具
Fuller 管理员 发表于 2016-10-23 15:41:50 | 显示全部楼层
beanbing 发表于 2016-10-23 13:40
就是有知道多少才输入?比如楼上说的2000?  那如果不是瀑布流,可以直接输入-1  会有什么影响吗 ...

输入-1的话,就会永远运行
举报 使用道具
beanbing 中级会员 发表于 2016-10-24 10:24:47 | 显示全部楼层
那我就不明白这个今日头条的规则了
QQ图片20161024102417.jpg
举报 使用道具
Fuller 管理员 发表于 2016-10-24 11:04:52 | 显示全部楼层
beanbing 发表于 2016-10-24 10:24
那我就不明白这个今日头条的规则了

这个主要作为示例,另一方面,设置成-1很不安全,有些网站,如果翻页过程中永远不删除顶上的内容,内容会占用到很大大,最终导致程序崩溃。所以,-1的情况需要慎重使用
举报 使用道具
beanbing 中级会员 发表于 2016-10-24 11:13:55 | 显示全部楼层
1.那这样的话  就算是无到底的网页  你也只能设置上一定数量  比如2000次滚屏   
2.如果我再MS里设置了,那是否无需再DS中重新设置呢
多谢
举报 使用道具
Fuller 管理员 发表于 2016-10-24 22:55:40 | 显示全部楼层
beanbing 发表于 2016-10-24 11:13
1.那这样的话  就算是无到底的网页  你也只能设置上一定数量  比如2000次滚屏   
2.如果我再MS里设置了,那 ...

滚屏参数的设置有两类,而且是巨大的区别,不能搞混了:
1)连续动作中的连续滚屏,它的参数是在规则定义的时候设定
2)普通的滚屏,是在DS打数机上或者会员中心中设置。

这个帖子的板凳楼层有详细讲解:http://www.gooseeker.com/doc/thread-3859-1-2.html
举报 使用道具
beanbing 中级会员 发表于 2016-10-25 11:32:50 | 显示全部楼层
本帖最后由 beanbing 于 2016-10-25 11:41 编辑

滚屏是滚动的设置,线索是网页url的数量,如果一个页面中url是4000条 ,就输入4000条,但是为什么我的永远都是只抓取了两页呢,统计线索那里,也只有一条,为什么呢
QQ截图20161025113227.jpg
举报 使用道具
HJLing 版主 发表于 2016-10-25 11:37:23 | 显示全部楼层
beanbing 发表于 2016-10-25 11:32
滚屏是滚动的设置,线索是网页url的数量,如果一个页面中url是2000条 ,就输入4000条,但是为什么我的永远 ...

你这是第一级页面 只有一个网址 线索就是1 你把这个页面的全部url(2000个)都采下来给第二级做线索 那第二级的线索才是有2000 你运行第二级的时候才输2000

举报 使用道具
beanbing 中级会员 发表于 2016-10-25 11:44:05 | 显示全部楼层
但是我的是滚屏的 ,抓取下来就只有几行数据,这个不对呀
我滚屏参数是4,总次数是4000,速度也相对调慢了,是-2
QQ截图20161025114324.jpg
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • 集搜客数据管家-网络爬虫软件,中文分词,情
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-11-25 04:02