升级服务器,沉重代价

BKJIA
4月21日外电头条】为复杂的服务器环境搭建起坚实的存储策略确实是个艰巨的任务,这时候没有什么比得上想方设法让企业通过你的预算建议了参考阅读BKJIA相关文章:忽视服务器整合——数据中心搭建重大错误)。对一套存储体系结构进行更新或者搭建新的备份底层架构等等都需要很大的资金负担,这通常意味着你必须在向管理层阐述观点时发挥一点创造性。然而,向管理层隐瞒运营底层架构所需要的真实成本其实是一个危险的游戏。

BKJIA
3月30日外电头条】升级服务器时遵循一定的方法可以避免出现问题,并获得峰值效率。Erik
Eckel在本文中列出了需要注意的十件事情。

运营底层架构的重要性

服务器的部署总是有针对性的目标,至少在初期是这样。不管服务器是部署在小公司还是大企业,它的角色总是随着时间而变化。由于经济增长、预算削减、机架限制rack
limitations)或者其它原因,单一目的的服务器往往需要去执行其它的服务,并承担起相应的责任。

是的,有时候演演戏是必要的。但从另一方面看,有一部分问题是我们很少能做好教育管理层的工作,无法让他们了解IT系统是如何生活和呼吸的,还有它们的实际运行成本怎么样。模糊化处理其实不符合任何人的长远利益,尤其是云计算逐渐成熟后即将成为一个可行的企业内部底层架构的替代方案。

这就是为什么对系统定期进行检查很重要的原因。检查系统资源负载有助于该组织优化服务器的性能,防止停机等故障。然而,系统管理员不能仅仅满足于解决小问题,这里增加一点内存,那里升级一下磁盘。你需要在服务器升级之前仔细规划,并在升级服务器时牢记以下10件事,从而确保系统可以在峰值效率下运行。

造成这种脱节的原因之一是管理层没能掌握成本与具体应用的关键性以及比如储存或其他等实际技术要求的关系。我一次又一次看到那些巨大的超级昂贵的任务关键型应用坐落在同样巨大的超级昂贵的存储底层架构上,但基本上却在低负荷下空转。而与此同时,在数据中心的其他地方,一大堆廉价的初级应用正在烧焦着存储资源,它们造成工作负载超出关键系统的许多倍。

1:首先,需要对数据备份进行核实

发生这种情况的原因通常可以追溯到预算过程。当管理层被告知一个任务关键的应用要耗费数百万美元来购买和实施时,很少有人会返回去问起是否需要为它配置相匹配的底层架构,但事实上这是需要的。

在确保一份经过核实的数据备份请参看BKJIA相关文章:最易掌握的数据中心备份十三法)存在之前,不要对服务器作任何改动,即使是微小的升级。任何时候服务器关了机,都无法保证它能重新启动并正常工作。尽管这种情况出现的概率很小,但我也见过仅仅是因为安装了Windows
性能和安全补丁,服务器在关闭后就无法正常重启的事情。

相反,企业们经常随意的购买5000或10000美元的应用,而根本不会考虑它们对底层架构的影响参考阅读BKJIA相关文章:三万元搭建LINUX服务器集群)。但是,如果你做做功课来彻底测试一下这些小应用的话,你会经常发现这些“小”应用所使用的资源比“大”应用要更多。虽然管理层经常在通过那些请求比如为75万美元的软件工程配上10万美元的存储架构时眼都不眨一下,但如果你想为一个1万美元的软件项目申请5万美元的存储,那你就会面对无穷的阻力。

2:考虑创建一个镜像备份

这就是两步预算budgetary
two-step)是怎样被发明出来的。IT部门想方设法为那些大项目多花上一些钱来购买并不需要的底层架构,同时也可以满足那些不会得到批准的小项目的架构需求。参考阅读BKJIA相关文章:服务器采购原则与成本关系)

一些生产商提供了IT专业磁盘克隆技术,这可以简化服务器发生故障时的恢复过程。包括Acronis和StorageCraft
技术公司在内的一些企业,提供了一个普遍的恢复选项,使得发生故障的服务器甚至可以恢复到不同的裸机底盘bare
metal
chassis)上,使得其停机时间极度减少。如果升级失败,磁盘镜像请参看BKJIA相关文章:网管员必读
数据存储的基础知识数据镜像)不仅能够恢复数据,还能够轻易恢复那些复杂的配置。

你想问这是否真的是坏事呢?管理层认为钱花得精明,而IT部门也得到了需要的可靠资源。就好像是IT部门在默默的帮管理层的忙,静静地做正确的事,看上去像是双赢。

3:不要同时进行多项升级

4月21日外电头条】为复杂的服务器环境搭建起坚实的存储策略确实是个艰巨的任务,这时候没有什么比得上想方设法让企业通过你的预...

大多数IT专业人士知道减少系统重启次数的重要性,因此,新手总是通过一次关机来完成多项升级任务。但是,诸如添加磁盘、更换内存、安装附加卡这样的任务都应该分开进行。为什么需要这样做呢?这是因为,在异常出现一两天后,你想对导致异常出现的升级进行隔离,如果之前同时进行了多项升级,那么这一过程会变得异常复杂。如果只对进行了一项升级,那么跟踪异常潜在的起因会容易得多。

4: 升级后,密切监视日志文件

系统升级后,不要因为服务器重启进入操作系统没有显示错误,就理所当然的认为一切正常。相比以前,你应该更加密切地监视日志文件、错误报告、备份操作和其它关键事件。利用Windows内部执行情况报告或者第三方软件如源自GRI软件公司的HoundDog或Quest软件公司的PacketTrap)来确保任何升级或升级完成后一切能按计划执行。

5. 明确使用的是什么OS

升级时,很容易忽视服务器所运行的操作系统。当服务器机房没有进行标准化,而且多个机箱中包含一系列操作系统时,这种情况尤其显著。即使是经验丰富的管理员,在遇到令人晕头转向的混乱情况时这种情况在企业的信息服务部门中很常见),他们也会试着在32位的Windows
server
2003的服务器上安装8GB的内存。只有一开始快速核查包括32位或64位的核查)将要更新的系统,你才能确保操作系统的兼容性,从而安装附加的RAM或者其它资源。

相关文章

Comment ()
评论是一种美德,说点什么吧,否则我会恨你的。。。