橙就范文网 范文大全 数据中心机房运维方案(精选)

数据中心机房运维方案(精选)

数据中心机房运维方案 第一章 某数据中心基础运维概述 某数据中心的基础运维工作主要包含包括四个部分:基础环境、网络、服务器存储和基础软件。 其中第一部分机房基础环境部分,包含机柜位置、空调、消防、…

数据中心机房运维方案

第一章 某数据中心基础运维概述
某数据中心的基础运维工作主要包含包括四个部分:基础环境、网络、服务器存储和基础软件。

其中第一部分机房基础环境部分,包含机柜位置、空调、消防、安防、弱电、UPS等最基础的机房环境设施。需要对这些基础环境部分进行运维维护,确保整个机房环境正常稳定。

第二部分为网络环境,包括当前数据中心所有的交换机、路由器等设备,以及由这些设备组成的所有网络,需要监控网络运行情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。

第三部分服务器和存储部分,包含整个数据中心的小型机、服务器、存储设备、SAN交换机等设备。这些设备支撑着整个业务系统,是非常重要的基础硬件环境。需要监控这些设备的运行情况,及时处理出现的问题和变更,并基于整个环境提供优化。

第四部分为基础软件部分,包括各种操作系统、数据库、中间件、备份软件等等。要求这些软件可以正常工作,并优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出解决方案;可以协助应用人员解决故障或进行对应的变更、升级等操作。

本方案将基于这几个方面进行设计,确保数据中心正常、高效运行。

第二章 数据中心运维分类
某数据中心运维团队将根据当前数据中心的实际情况和对应的管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。我们将基于以下几个方面对运维工作进行描述

2.1 基础环境运维管理

针对基本的机房环境设施,我们的工作内容包含以下这些内容:

1) 机房机柜摆放规划和机柜管理;

2) 服务器和网络设备摆放规划和日常管理;

3) 设备出入机房审批登记管理;

4) 内部人员出入机房审批登记管理;

5) 外部来宾机房参观审批登记管理;

6) 机房电力系统监控、问题及时上报;

7) 消防监控系统监控、接收报警短信和联系第三方;

8) 空调报警系统监控、接收报警短信和联系第三方;确认空调运行状态良好。清洁机房的空调防尘网。

9) 温湿度报警监控、接受报警短信和联系专业第三方;

10) 漏水报警系统监控、接受报警短信和联系专业第三方;

11) IC卡门禁系统日常运维;

12) 视频监控系统日常运维;

13) UPS报警系统监控和联系第三方;

14) 机房资产管理系统(CMDB)。

15) 机房环境。清理机房的杂物,将机房物品定置。清洁机房门窗、地面。定期清洁电池室的地面;检查机房所有与外界的空洞是否已严密封堵,严密防鼠;检查机房玻璃、地板、天花板、通气口,墙体表面是否正常,外观是否完好,有否出现老化现象。检查机房是否有漏水现象。检查机房墙壁是否有渗水现象。填写巡检记录,有问题及时报告。

16) 巡视电池间;检查电池工作状态。

17) 确认机房照明良好,出现问题及时报告。

18) 视频网络播放系统。定期检查可用性,有问题及时与专业第三方公司联系解决。

19) 填写巡检记录。

2.2 网络运维管理

针对数据中心的网络部分,运维内容主要包含以下内容:

1) 测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商解决。

2) 网络接入商变化时,配合网络接入商对网络变更方案的可行性审查、问题审查。配合网络接入商更替施工。

3) 局域网。本地局域网日常管理和维护;VLAN 划分;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题,并解决。

4) 无线局域网。负责无线局域网的日常管理和维护;客户端不能正常接入网络的故障排除;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题并解决。

5) 远程接入。制定VPN使用策略,实施VPN用户日常远程接入服务器的管理,以及性能优化和故障排除等。

6) 网络病毒查杀和网络安全保护。

7) 根据实际项目或安排而产生的其他工作。

2.3 服务器和存储运维管理

2.3.1 服务器运行情况及性能监测

数据中心运维团队将通过综合监控系统实施7*24小时平台设备监控,发现告警,并进行处理,解决问题。对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。并且还提供针对各服务器物理资源的使用情况和操作系统的运行情况、进行实时监控,提供服务器安全监测报告。

主机性能监控的检查列表包括:

ü CPU利用率

ü 内存使用情况

ü 交换区使用情况

ü 磁盘I/O情况

ü 关键文件系统的状态

ü 重要进程的运行情况(例程数量、消耗CPU、占用内存)

ü 操作系统的各类日志文件

ü 网络、端口信息

ü ……

运维团队需根据检查列表进行日常检查,并不断地改进日常检查列表,以满足对系统监控的需要。

2.3.2 服务器软硬件兼容性检查

数据中心运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁、硬件微码等信息,在通过数据中心专家评审的前提下,对相关设备进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。

2.3.3 磁盘阵列设备管理

运维团队需要对磁盘阵列设备及其相关的部件(如硬盘、控制器等)进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,并在每次变更后及时更新相关的信息。

除此之外,运维团队定期(暂定每半年)对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况报表。

文件系统空间管理

ü 定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间。

ü 对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。

数据库空间管理

ü 应实时监测数据存储空间的使用情况,根据业务数据的数据量、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据;定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,填写数据库空间新增/修改/删除申请表,经审核后实施,并更新数据库配置状况记录表。

数据中心如何建设,数据中心机房维护方法详解
2022-01-07 12:28·pheenet菲尼特
1、数据中心将建在哪里

分析新建的数据中心所在地的气候条件是十分重要。这将有助于确定最合适的冷却措施,其中包括水冷机组,机械制冷空调,自然空气冷却、间接空气冷却,绝热冷却等,这些都是为了数据中心设施实现其更低的PUE目标。

2、需要多少个机架,它们的尺寸是多少

机架的数量决定数据中心的空间需求。传统的IT机架的尺寸为600x1000mm(宽x深),而一个空间为100平方米的机房可以容纳大约50个机架。当然机架也有其他的尺寸,而知道机架的尺寸和机架的数量,就很容易估测你的数据中心所需的空间。

3、需要什么等级的数据中心

数据中心的Tier等级确定了数据中心的冗余要求和电源分配路径。对于一个Tier2级数据中心来说,部署“N+1”架构的电源和冷却设备的冗余是足够的。然而,对于一个Tier3级的数据中心设施,通常都会包括“N+1”冷却设备冗余,具有双供电2N电源冗余,以及独立的双路配电机架。因此,了解数据中心的等级可以决定需要的冗余设计。

4、每个机架平均功率密度是多少

要注意的是,当设计数据中心的电源容量时,应该根据平均功率密度,而不是在最大额定电源,这是很重要的。机架的平均功率密度乘以机架的数量才是数据中心的最大IT负载量。然后,再加上数据中心的电源系统,冷却系统和交换机和存储设备等设施的功率。

为了避免产生昂贵的成本,并充分利用电力系统,使数据中心具有大小合适的电源和空间,采用模块化策略是明智的,可以降低成本,而不必牺牲未来扩展的灵活性。

5、运维人员应参加规划设计工作

a.运维参与前期规划设计,可弥补设计人员对系统运行管理知识的不足,提高设计质量,避免或消除设计缺欠;

b.运维参与前期规划设计,可将运维阶段的需求在规划设计中得到充分考虑;

c.运维参与前期规划设计,可充分了解和掌握所维护系统的结构、可靠性薄弱环节、遗留问题、潜在风险,有助于提高运维质量、有根据地制定运维计划和切实可行的改造计划。

6、避免受内外部因素影响

a.应避免受审批、决策等环节个别决策者影响,对一些关键功能按照个别人的意见进行删减调整,导致最终交付的数据中心功能不能满足运营和维护需求;

b.应避免出于倾向、喜好或利益驱动。在规划设计阶段部分设备厂商可能会通过夸大设备性能、混淆概念等手段影响规划设计人员的方案制定和设备选型。

7、交流机架或直流机架需要什么级别的备份电池

服务器机架可能需要部署百分之百的直流电源,或百分之百的交流电源,或者是二者的组合。

例如,如果正在为托管目的建设数据中心,可能有配备交流(UPS)供电系统的需求,而如果是要成为一个电信设施,这可能需要部署直流电源系统。知道这些,就会知道所需要的直流电源或UPS电源系统的大小和规模。

在部署备份电池时,最好根据15分钟备用放电时间进行配置。这样部署备用电池,不会显著增加资本支出,虽然这将很难自圆其说,但这更符合成本效益。企业需要提高备用发电机组的冗余度,而不是在增加电池数量浪费更多的资金。

8、避免轻规划设计,重施工建设

业内存在轻规划设计,重施工建设的现状,主要表现在:

a.先建楼体结构,后规划数据中心,为数据中心规划设计带来难以克服的困难;

b.机房建设和设备安装完毕即开始改造的现象普遍存在;

c.先确定设备,再确定方案,由于所购设备功能不满足方案要求,或场地不满足安装条件要求,因而设备尚未运行就要更换;

d.建设结构很难满足数据中心场地布局要求,使机房分区规划不合理;空调室外机无法安装或距离太远;动力室与主机房距离太远,增加传输和管理困难,增加成本,降低可靠性。

9、避免忽视对系统可维护性和可修复性设计

系统三分建设、七分维护,任何设备都可能发生故障,可快速修复已经成为提高可用性的关键指标。

忽视可维护性和可修复性的现象表现在:

a.规划设计阶段未考虑后期维护通道、维护空间,例如设备距离墙壁太近,电池靠墙摆放,线缆布局不合理、线缆管路或走线架挡住上方弱电线槽导致后期无法维修、维护工具难以施展等;

b.故障发生时,应急物资和备件无法快速搬运,故障设备和器件更换无维修操作空间等问题,延误了故障处置时限甚至引发重大事故;

c.未考虑后期发生故障进行设备维护时系统的冗余保障能力;

d.未尽可能采用自动化手段,最大程度减少维护人员手动操作环节,降低因手动操作存在的不确定性和不可控性。

10、避免可用性设计缺乏科学依据

系统可用性是数据中心规划设计的最重要的指标,但规划设计时缺乏科学依据,主要表现是:

a.数据中心在规划设计时都会进行各系统可靠性的推算,但目前各设计院、不同的设计人员对可靠性的推算依据和数据来源尚未统一,造成对同一数据中心的设计等级和可靠性存在不同定义和不同的结果;

b.对可用性存在着先进行规划设计、施工,建设完成后再反推设计等级的案例,并以反推的等级标准向数据中心用户进行推介。此为本末倒置的设计,往往因为设计中的某些关键缺陷导致虽然绝大部分设计满足等级要求,但因为关键缺陷的存在造成等级下降;

c.只注意设备或环节(子系统)的可用性,而忽略在整个系统中各子系统之间的相关性对可用性的影响。

11、避免在脱离实际需要和可行性情况下,确定高指标

在规划设计初期,主观臆断确定数据中心的功能指标,不切实际地一味追求规模大、高可用性等级、高机架功率密度、低能耗指标PUE。

而具体规划设计时,又没有严格按照规划原则和程序做详细的论证,具体方案和实际措施与总体规划部匹配,其结果是:

a.由于实际需求不明确,缺乏可行性的必要条件,反复设计、修改,不仅造成成本的浪费,还大大延长了建设周期;

b.已建成并投入使用的机房得不到充分利用,究其原因或因无预想的业务需求量,或因机房条件不满足用户需求而必须进行再优化改造才能使用;

c.规划设想的功能不能实现,如系统可用性达不到规划等级、制冷方案不支持规划的机架高功率密度、发电机不支持系统连续运行条件、过度规划使系统能耗指标PUE居高不下等。

12、避免重设备轻系统的认识误区

业内特别是规划设计人员普遍存在着重设备轻系统和重局部忽视大局的现象,主要表现在:

a.先确定设备规格型号甚至生产厂家,然后根据设备选择或修改设计方案;

b.供电系统按最高可用等级2N冗余设计,但所设计的结果是仅仅UPS系统有2N功能,而整个供电系统却存在单路径故障点;

c.整个系统按最高等级冗余容错系统设计,但是空调制冷设备却是单路径供电;

d.为系统配置了交流备用能源柴油发电机,但发电机没有自动启动功能,因为规划设计者缺乏连续制冷也是系统连续运行的重要条件的认识。

13、注重统筹设计

提高系统统筹设计能力对优质地完成规划设计任务是非常重要的。

a.在数据中心建设过程中存在着大量因规划设计对分阶段、分专业实施阶段工程,以及不同专业施工间衔接问题考虑不足造成交付的数据中心不满足业务及维护需求,有些问题甚至需要大笔投资进行改造方可完成;

b.不同设计人员只关注自身所负责内容,对于其他专业的是否完美衔接,是否与其他专业设计之间存在矛盾和冲突缺乏全局考虑;

c.规划设计人员对未来业务发展缺乏准确把握,对后期容量管理、扩容等方面考虑不足;

d.规划设计人员对周围资源环境和物理环境不熟悉,所设计的方案会出现实施可行性差或者为后来运维工作带来难以克服的困难。

返回顶部