关于数据中心的容量规划,我们需要针对两大问题提出解决方案:您的数据中心在未来一年内会购买设备?您打算具体什么时候购买?
为了回答这些问题,您需要了解以下信息:
当前的使用情况:哪些组件会影响您数据中心的服务能力?这些设备当前的使用情况如何?
正常的业务增长情况:排除任何特定业务或营销事件的影响,您数据中心服务业务的预期增长率是多少?有时,这就是所谓的有机增长。
计划性的业务增长情况:您数据中心制定了哪些业务或营销活动计划,这些计划中的活动何时会发生,每项活动所带来的预期增长情况如何?
净空余量(HeadRoom):您数据中心在短期内会遭遇哪些类型的服务使用高峰?在未来一年内是否会有诸如奥运会或选举等任何特定事件,预计这类型的活动将导致怎样的数据处理需求?数据中心需要多少的闲置产能,以便能够很好地处理这些峰值需求?净空余量通常被指定为当前容量的百分比。
时间期间:对于每一个组件,从订货到交货的时间是多久,以及从其交货到真正开始在数据中心执行服务任务的时间是多久?这些组件是否会给服务带来新的具体限制规定,如更改某些窗口设置?
根据这些信息,您可以通过一个简单的公式来计算出在明年年底前您对于每项资源所期望的容量能力:
未来所需资源=当前使用情况×(1 +正常业务增长+计划增长情况)+净空余量
然后,您可以通过计算每项资源的未来需求,来确定您数据中心所需要购买的额外的容量:
额外的资源=未来资源?现有资源
无论您是否认为您数据中心未来需要更多的容量能力,都需要针对每项资源执行此计算。据此,您可以得出您数据中心在新的一年里不需要更多的网络带宽的结论。毕竟,如果您没有在进行容量规划时将所需运行的网络带宽考虑在内,其会让您措手不及。对于共享资源,来自很多团队的数据将需要结合,以确定是否需要更大的产能。
目前的使用情况
在您数据中心考虑购买额外的设备之前,您需要了解您数据中心目前有多少可用资源,以及您目前使用了多少资源。而在您评估您数据中心所拥有的资源之前,您需要有一个关于您数据中心目前所能够提供服务的资源的完整的清单。如果您忘记了某些东西,其将不会被包括在您的容量规划之内,而您可能会在稍后被耗尽,因此无法随着您数据中心业务的增长满足服务需求。
跟踪什么资源信息
如果您数据中心所提供的是基于互联网的服务,两大最显而易见的事情是一些提供服务的机器需要连接到因特网;而一些机器可能是通用型的机器,后来被定制化了以便执行特定的任务,而其他的则可能是专用设备。
深入到这些项目,如机器的CPU,高速缓存,内存,存储和网络。连接到互联网需要一个本地网络,路由器,交换机和至少一个ISP连接。更深一步,网卡,路由器,交换机,电缆和存储设备都有带宽的限制。有些设备可能有更高端的网卡,需要在网络上有特殊的电缆和接口。所有的网络设备需要IP地址。这些都是需要被跟踪资源。
退一步,所有的设备都会需要运行某种操作系统,而其中一些还运行了附加的软件。操作系统和软件可能需要许可证和维护合同。设备的数据和配置信息可能需要更多的系统备份。甚至更远一步,需要安装在一个数据中心的机器设备,需要满足相关的电力和环境需要。数据中心机架的数量和类型,电力和冷却容量、可用空间等都需要进行跟踪。数据中心可能需要为每台机器设备提供额外的服务,如控制台服务。对于有多处数据中心或分公司的企业,可能需要在这些站点之间建立联系,当然也就有容量能力方面的限制。这些都是需要额外跟踪的资源信息。
如果涉及到外部供应商可能会提供的一些服务。相关的服务合同规定需要涵盖这些服务的成本或容量限制。要确保您数据中心已经把每一个可能的方面都考虑在内,与数据中心每一个部门的人员交流,并搞清楚他们在执行哪些业务内容以及这些业务内容与数据中心所提供核心服务的关系。对于所有涉及到的服务,您数据中心均需要了解其容量限制是怎样的,如何能跟踪这些信息,如何衡量有多少可用容量被使用了。
您数据中心拥有多少可用资源
没有什么东西可以代替一个很好的最新库存数据库来帮助您数据中心保持对于您资产跟踪的了。库存数据库应使其成为组件订购,配置和退役过程的核心,以及时保持更新。一个及时更新的库存系统能够让您及时找出您数据中心拥有多少资源的相关数据信息。其也被用来跟踪软件许可证和维修合同,以及合同中所涉及到的由第三方提供的资源。
使用有限数量的标准机器配置,和一套标准的设备,存储系统,路由器和交换机可以更容易地帮您数据中心找到低级别的资源设备的数量,如他们的CPU和内存。
您目前使用了多少资源
为每项服务确定有限的资源。您的监控系统可能已经收集了CPU,内存,存储和带宽资源的使用数据。通常,其收集这些数据的频率要比容量规划要求的要高。总结或统计样本可以有助于充分规划的目的,一般会简化计算。这些数据与库存系统的数据相结合,将显示您当前有多少闲置产能。
跟踪库存数据库的一切数据并使用有限的一组标准硬件配置数据也可以帮助您很容易地找到您数据中心的每台设备目前使用了多少空间,电源,冷却和其他数据中心资源。所有的数据输入到库存系统,可以自动生成数据中心资源当前的利用率。
正常业务增长情况
监控系统直接提供当前设备使用情况和容量的数据。其也可以用于为数据中心提供较之前一年的业务正常增长率。找出任何明显的阶段性变化,看看这些变化是否对应到了某一个特定的事件,如推出了一款新产品或受到一次特殊的市场营销活动驱动。如果由于这些特定的事件带来了在剩下的时间里的持续的需求增长,您需要计算这一变化,并减去从随后的相关数据,以避免由该特定事件所驱动的需求影响了正常业务增长的计算。尽可能的持续多年绘制该数据图,以确定正常的业务增长速率是否线性的,或遵循了一些其他的趋势。
计划中的业务增长
第二步是对于市场和商业活动所带来的额外需求增长的估计,如推出新产品或新功能。例如,市场营销部门会计划在五月份举办一次大型活动,预计将增加20%到25%的客户群。或者是一款新产品将于今年八月发布,而较之之前三个月的服务,预计会带来每月10%的工作负载的梯度增加,并在年底前增加至30%.数据中心需要使用从第一步预期的增长假设来验证数据的任何变化。
净空余量
净空余量是被认为是常规产能过剩量。任何服务都将需要扩展资源使用率,以满足偶尔遭遇的使用高峰或边界条件。为了防止这些边界条件触发中断,必须定期提供闲置的资源。对于一项既定的服务,需要提供多少净空余量是一项非常重要的商业决定。由于过剩产能主要是未使用的容量,其本身的性质就意味着潜在的投资浪费。因此,负责任的数据中心的财务部门需要在节约资金和防止可能的服务中断之间进行有效的平衡。
您的监测数据应拾取这些资源的尖峰值并提供硬统计数据,包括何时、在哪里及其发生的频率。数据中断和相关报告也应重点确定合理的净空余量。
确定数据中心需要多少净空余量所需的另一部分工作是需要确定处理额外的资源部署到生产过程所需要花费的时间。如果需要三个月的时间来提供新的资源,那么您显然需要比花费两个星期或一个月的时间提供新资源更多的可用余量空间。至少,您需要足够的空间来保证预期的增长时期。
弹性
可靠的服务也需要额外的容量能力来满足SLA.额外的容量可以允许一些组件发生运行失败,同时不会影响到最终用户的体验,甚至造成中断或服务质量下降。额外的容量需要在不同的故障域;否则,一个单一的中断也可能造成主机和备用容量的运行中断,以接管工作负载。
通常,在一个大型的数据中心,运行失败的故障域也应该考虑。例如,对电力系统全设施的维护工作要求整个建筑的电力供应都要被关闭。如果整个数据中心断电离线,服务必须能够顺畅转移到其他数据中心运行而没有容量能力的问题。散布在多个故障域的服务能力可以减少处理额外的容量能力的弹性要求,以最具成本效益的方式提供额外的容量。例如,如果某项服务运行在一个数据中心,第二处数据中心需要提供额外的容量,约50%.而如果某项服务运行在九个数据中心,那么就需要第十处数据中心来提供额外的容量;此配置仅需要10%额外的容量。
黄金标准是同时为两处数据中心提供足够的容量能力。这允许一处数据中心能够进行有计划的维护,而企业仍然准备好了另一处数据中心保持业务顺畅运行,防止意外发生。
时间期间
大多数公司每年都会制定其年度预算计划。基于您数据中心的正常业务增长和计划增长情况进行相关的预期,从而映射出您数据中心所需要的可用资源。由此,您需要弄清楚从制定出该计划到相关资源真正成为可用的需要多长时间。
从您数据中心采购订单被批准到其被发送给供应商需要多长时间?从采购订单到供应商最终实现货物交付需要多长时间?从交货到资源真正装配完毕可用需要多长时间?在设备安装完成之后是否需要具体的测试?是否需要更改特定的窗口设置,以实现额外的容量能力目标?一旦额外的容量被实现,需要多长时间来重新配置服务来使用它?利用这些信息,您可以提供一个经费需求时间表。
物理服务通常比虚拟服务花费更长的时间。部分流行的IaaS和PaaS产品,如Amazon的EC2和弹性存储是新请求的资源,几乎已经普及了即时交付。
减少资源的交付时间始终是符合成本效益的,因为这意味着我们可以支付较少的过剩产能,以覆盖资源交付时间。这就可以自动准备新获得的资源,以获得直接的价值。
先进的容量规划
大型、高速增长的环境,如流行的互联网服务需要不同的方法进行容量能力的规划。标准的企业风格的容量规划在技术方面往往是不够的。客户可能以很难预测的方式迅速变化,数据中心服务商需要更深入、更频繁的对服务监测数据进行统计分析,以检测使用趋势的显著变化。这种容量规划需要更深入的技术知识。容量规划需要熟悉诸如QPS,活跃用户,参与度,主要资源,能力的限制和核心驱动程序等概念。