2024年6月7日发(作者:)

简介: 本文首先对Linux高性能集群Cluster1350及其集群管理系统CSM (Cluster

System Management)进行了简要的介绍,然后对CSM的体系结构进行了比较详细的剖

析。

一、集群

一般来说,集群是指一组高性能计算机通过高速网络连接起来的,在工作中像一个统

一的资源,所有节点使用单一界面的计算系统。集群技术的出现,使得使用多台PC或工

作站就可获得同大型机相匹敌的计算能力,同时成本大大降低,从而在很多高性能计算领

域内由集群完全取代大型机也将成为可能。

广义上的集群的节点可以是任意类型的计算机,包括PC机、工作站、SMP等等,甚

至是大型机。Linux集群是指一类以PC架构计算机为集群节点,以某一版本Linux操作系

统为集群节点操作系统的集群。由于Linux本身具有开放源码、稳定、支持PC架构等诸

多优势,以及操作系统及节点机价格的因素,Linux集群技术被认为是最具发展潜力的集

群技术。

回页首

二、集群系统管理

根据典型的集群体系结构,集群中涉及到的关键技术可以归属于四个层次:网络层、

节点机及操作系统层、集群系统管理层、应用层。

网络层:网络互联结构、通信协议、信号技术等。

节点机及操作系统层:高性能PC或工作站、分层或基于微内核的操作系统等。

集群系统管理层:资源管理、资源调度、负载平衡、并行I/O、安全等。

应用层:并行程序开发环境、串行应用、并行应用等。

集群技术是以上四个层次的技术有机结合,所有的相关技术虽然解决的问题不同,但

都有其不可或缺的重要性。集群系统管理层是集群系统所特有的功能与技术的体现。在未

来按需(On Demand)计算的时代,每个集群都应成为业务网格中的一个节点,所以自治性

(自我保护、自我配置、自我优化、自我治疗)也将成为集群的一个重要特征。自治性的实

现,各种应用的开发与运行,大部分直接依赖于集群的系统管理层,并且,系统管理层的

完善程度,决定着集群系统的易用性、稳定性、可扩展性等诸多关键参数。正是集群管理

系统将多台机器组织起来,使之可以被称为"集群"。

回页首

三、IBM Cluster1350,Linux高性能集群

Cluster1350是IBM公司目标定位于高性能计算市场的Linux集群,包括一套完整的

解决方案,集成了众多IBM与非IBM的先进的软硬件技术,有其特有的技术优势与强大

的服务支持。Cluster1350集群的体系结构如下图所示:

Cluster1350体系结构