本章讲述与 Sun Cluster 配置的硬件部件相关的关键概念。
Sun Cluster 硬件部件本章中的信息主要面向硬件服务供应商。在服务供应商安装、配置或维修群集硬件之前,这些概念可帮助他们理解硬件部件之间的关系。群集系统管理员可能也会发现这些信息很有用,它们可用作安装、配置和管理群集软件的背景信息。
群集由下列硬件部件组成: 具有本地磁盘的群集节点(不共享) 多主机存储器(节点间的共享磁盘) 可拆卸介质(磁带和 CD-ROM) 群集互连 公共网络接口 群集系统 管理控制台 控制台访问设备 Sun Cluster 使您能将这些部件组合成多种配置,这些内容在 Sun Cluster 拓扑 中讲述。下图是一个群集配置样例。
1 - 双节点群集配置样例 群集节点群集节点是同时运行 Solaris 操作系统和 Sun Cluster 软件的机器,它要么是群集的当前成员 (cluster member),要么是潜在成员。Sun Cluster 软件使您可在一个群集中部署两到八个节点。有关支持的节点配置,请参见 Sun Cluster 拓扑。群集节点一般连接着一个或多个多主机磁盘。可伸缩服务配置允许节点向请求提供服务,但不直接连接到多主机磁盘。未连接到多主机磁盘的节点使用群集文件系统来访问多主机磁盘。在并行数据库配置中,各节点共享对所有磁盘的并行访问。有关并行数据库配置的详细信息,请参见 多主机磁盘和
3, 重要概念 管理和应用程序开发。群集中的所有节点都会归组到一个共用的名称下--即用于访问和管理群集的群集名称下。公共网络适配器将节点连接到公共网络,为客户机提供对群集的访问。群集成员通过物理上独立的一个或多个网络(称作 private networks)与群集中的其他节点通信。群集中的专用网络集称作 cluster interconnect。
群集中的每一节点都会知道另一节点的加入或离开。另外,群集中的每一节点还都会意识到本地运行的资源和在其他群集节点上运行的资源。使用资源(应用程序、磁盘存储器等)配置群集成员时应能使它们具备失败切换和/或可伸缩能力。确保同一群集中的各节点具备相似的处理、内存和 I/O 能力,以便可在保持性能不变的情况下实现失败切换。因为存在失败切换的可能性,所以应确保每个节点都具有足够额外能力,能够承担它们所备份或辅助的所有节点的工作量。各个节点引导自己的根 (/) 文件系统。
群集成员的软件组件要起到群集成员的作用,必须安装下列软件: Solaris 操作环境 Sun Cluster 卷管理软件(Solstice DiskSuite(TM) 或 VERITAS 卷管理器) 数据服务应用程序 在使用硬件独立磁盘冗余阵列 (RAID) 的一个 Oracle Parallel Server(OPS) 配置中有一个例外。该配置不需诸如 Solstice DiskSuite 或 VERITAS 卷管理器 软件卷管理器来管理 Oracle 数据。有关如何安装 Solaris 操作系统、Sun Cluster 和卷管理软件的信息,请参见 Sun Cluster 3.0 安装指南。有关如何安装和配置数据服务的信息,请参见 Sun Cluster 3.0 Data Services Installation and Configuration Guide。有关上述软件组件的概念信息,请参见 3, 重要概念 管理和应用程序开发。下图展示了一起使用来共同创建 Sun Cluster 软件环境的软件组件的高层视图。 2 - Sun Cluster 软件组件的高层关系 有关群集成员的问题及解答,请参见
4, 常见问题。多主机磁盘 Sun Cluster 需要多主机磁盘存储器,它们是可以同时连接到多个节点的磁盘。在 Sun Cluster 环境中,多主机存储器使磁盘设备具有高可用性。驻留在多主机存储器上的磁盘设备能承受单节点故障。多主机磁盘存储应用程序数据,同时也能存储数据服务二进制和配置文件。对多主机磁盘的访问要么是通过“控制”磁盘的主节点进行的全局访问,要么是通过局部路径进行的直接并行访问。当前唯一使用直接并行访问的应用程序是 OPS。多主机磁盘在发生节点故障时避免遭受损失。如果客户机请求通过一个节点访问数据,但该节点出现故障,则请求会切换至与同一磁盘直接连接的另一节点。卷管理器为镜像或 RAID-5 配置提供多主机磁盘的数据冗余。当前,Sun Cluster 支持 Solstice DiskSuite 和 VERITAS 卷管理器 用作卷管理器和 Sun StorEdge(TM) A3x00 存储单元中的 RDAC RAID-5 硬件控制器。使用磁盘镜像和磁盘条带化,既可防止节点故障,又可防止单个磁盘故障。有关多主机存储器的问题及解答,请参见 4, 常见问题。多启动器 SCSI 本节中的内容只适于用作多主机磁盘的 SCSI 存储设备,而不适于光纤通道存储器。在独立服务器中,服务器节点通过将此服务器连接到特定 SCSI 总线的 SCSI 主机适配器线路,来控制 SCSI 总线活动。该 SCSI 主机适配器线路称作 SCSI initiator。它启动此 SCSI 总线的全部总线活动。
Sun 系统中 SCSI 主机适配器的缺省 SCSI 地址是
7。群集配置共享多个服务器节点间的存储器。当群集存储器由单端或差分 SCSI 设备组成时,这样的配置称作多启动器 SCSI。正如此术语的字面含义那样,SCSI 总线上存在多个 SCSI 启动器。 SCSI 规格需要 SCSI 总线上的每个设备都具有唯一的 SCSI 地址。(主机适配器也是 SCSI 总线上的设备。)因为所有 SCSI 主机适配器的缺省 SCSI 地址均为 7,所以多启动器环境中的缺省硬件配置会导致冲突。要解决这一冲突,请在每个 SCSI 总线上将一个 SCSI 主机适配器的 SCSI 地址保留为 7,将其他主机适配器设置到未使用的 SCSI 地址。正确规划要求这些“未使用的 SCSI 地址”当前未使用,并且以后永远也不会使用。将来不使用地址的一个实例是通过在空驱动器插槽中安装新驱动器来增加存储器。在大多数配置中,第二个主机适配器的可用 SCSI 地址是 6。可以通过设置 scsi-initiator-id Open Boot PROM (OBP) 属性来更改这些主机适配器的选定 SCSI 地址。可对某个节点就此属性进行全局设置,或对每个主机适配器逐个进行设置。在 Sun Cluster 3.0 Hardware Guide 中的每一磁盘群组所对应的章中,都包含了有关为每个 SCSI 主机适配器设置唯一 scsi-initiator-id 的说明。局部磁盘局部磁盘是仅连接到一个节点的磁盘。因此它们无法防止节点故障(不具备高可用性)。不过,包括局部磁盘在内的所有磁盘都包含在全局命名空间中,并且配置为 global devices。
因此,从所有群集节点都可看到这些磁盘。您可将这些磁盘上的文件系统放在一个全局安装点下,以使其他节点也可使用它们。如果当前安装了这些全局文件系统之一的节点出现故障,所有节点都将无法访问该文件系统。可使用卷管理器来对这些磁盘进行镜像,这样磁盘故障就不会导致这些文件系统变得不可访问,但是卷管理器不能防止节点故障的发生。可拆卸介质群集中支持诸如磁带驱动器和 CD-ROM 驱动器的可拆卸介质。通常,这些设备的安装、配置和维修方式与在非群集环境中相同。这些设备在 Sun Cluster 中配置为全局设备,因此从群集中的任何节点都可访问每一设备。有关安装和配置可拆卸介质的详细信息,请参考 Sun Cluster 3.0 Hardware Guide。
群集互连群集互连是用于在群集节点间传输群集专用通信和数据服务通信的设备的物理配置。因为群集专用通信中大量使用群集互连,所以会限制性能。只有群集节点可连接到专用互连。Sun Cluster 安全模型假定只有群集节点具有对专用互连的物理访问权。
所有节点必须由群集互连通过至少两个冗余专用网络或路径连接起来,以避免单节点故障。您可在任意两个节点间部署几个专用网络(两个至六个)。群集互连由三个硬件组件构成;适配器、结点和电缆。每个专用网络的配置应使其与其他任何专用网络没有共享的公共硬件部件。下面的列表对这些硬件组件逐一进行说明。 适配器 - 驻留在每个群集节点上的物理网络卡。它们的名称从产品名派生而来,例如 qfe 表示是 Quad FastEthernet。某些适配器只有一个物理网络连接,但其他适配器(如 qfe)具有多个物理连接。某些适配器还同时包含网络接口和存储器接口。具有多个接口的网卡在整个卡出现故障时会成为单故障点。为了获得最高可用性,请在规划群集时确保两个节点间的唯一路径不会依赖一个网络卡。 结点 - 驻留在群集节点外的开关。它们实现通路和切换功能,使您可将两个以上的节点连接到一起。双节点群集中不需结点,因为两个节点可通过连接到各自冗余适配器上的冗余物理电缆直接连接。超过两个节点的群集配置通常需要结点。
电缆 - 两个网络适配器之间或适配器和结点之间的物理连接。 有关群集互连的问题与解答,请参见 4, 常见问题。公共网络接口客户机通过公共网络接口与群集相连。每个网络适配器卡可连接一个或多个公共网络,这取决于卡上是否具有多个硬件接口。
可以设置节点,使之包含多个公共网络接口卡,将一个卡配置为活动卡,其他卡作为备份卡。称为“公共网络管理”(PNM) 的 Sun Cluster 软件的子系统监视着活动卡。如果活动适配器出现故障,则调用 Network Adapter Failover (NAFO) 软件进行失败切换,将接口切换至一个备份适配器。进行群集化时,不用为公共网络接口考虑任何特殊的硬件。有关公共网络接口的问题与解答,请参见 4, 常见问题。客户机系统客户机系统包括通过公共网络访问群集的工作站或其他服务器。客户端程序使用群集中运行的服务器端应用程序提供的数据或其他服务。客户机系统不具备高可用性。群集中的数据和应用程序具备高可用性。有关客户机系统的问题与解答,请参见
4, 常见问题。管理控制台可以使用专用 SPARCstation(TM) 系统(称为管理控制台)来管理活动群集。通常在管理控制台上安装并运行的管理工具软件有 Cluster Control Panel (CCP) 和 Sun Management Center 产品的 Sun Cluster 模块。
使用 CCP 下的 cconsole 可使您能同时连接到多个节点控制台。有关使用 CCP 的详细信息,请参见 Sun Cluster 3.0 系统管理指南。管理控制台不是群集节点。您可使用管理控制台通过公共网络或是基于网络的终端集线器来远程访问群集节点。如果群集由 Sun(TM) Enterprise E10000 平台组成,则必须有能力从管理控制台登录到 System Service Processor (SSP), 并能使用 netcon(1M) 命令进行连接。配置节点时通常不配置监视器。这样,您从管理控制台(该控制台连接到终端集线器,然后从终端集线器连接到节点的串行端口)通过 telnet 会话访问节点的控制台。(如果使用 Sun Enterprise E10000 server,则从 System Service Processor 进行连接。)有关详细信息,请参见 控制台访问设备。
Sun Cluster 不需要专用管理控制台,但如使用,则具有以下益处: 通过将控制台和管理工具归组到同一机器上,实现集中化的群集管理。 硬件服务供应商解决问题的速度可能会更快。 有关管理控制台的问题与解答,请参见 4, 常见问题。控制台访问设备您必须能对所有群集节点进行控制台访问。要获得控制台访问权,请使用和群集硬件一起购买的终端集线器、Sun Enterprise E10000 server 服务器上的 System Service Processor (SSP),或者可在每一节点上访问 ttya 的另一种设备。 Sun 只提供一种支持的终端集线器。您可选择使用支持的 Sun 终端集线器。终端集线器通过使用 TCP/IP 网络实现对每一节点上 ttya 的访问。这样就可从网络上的任一远程工作站对每一节点进行控制台级别的访问。 System Service Processor (SSP) 为 Sun Enterprise E10000 server 提供控制台访问。SSP 是以太网上的 SPARCstation 系统,被配置为支持 Sun Enterprise E10000 server 服务器。SSP 是 Sun Enterprise E10000 server 服务器的管理控制台。使用 Sun Enterprise E10000 Network Console 功能,网络上的任何工作站都可打开主机控制台会话。其他控制台访问方法包括其他终端集线器、从另一节点进行的 tip(1) 串行端口访问和哑终端。
可以使用 Sun(TM) 键盘和监视器或其他串行端口设备(如果硬件服务供应商支持这些设备)。有关控制台设备的问题与解答,请参见 4, 常见问题。 Sun Cluster 拓扑拓扑是群集节点与群集中所用存储平台的连接方案。 Sun Cluster 支持下列拓扑: 群集对 N+1(星型) 下面两节分别介绍两种拓扑。群集对拓扑群集对拓扑是在单一群集管理框架下运行的两对或更多对节点。在此配置中,只会在一对节点间进行失败切换。但是,所有节点都通过专用网络连接在一起,并且在 Sun Cluster 软件控制下运行。
您可使用此拓扑在一对节点上运行并行数据库应用程序,在另一对节点上运行具高可用性的应用程序。通过使用群集文件系统,还可部署两对节点的配置,在此配置中,即使所有节点都未直接连接到存储应用程序数据的磁盘,两个以上的节点仍可运行可伸缩服务或并行数据库。下图所示为群集对配置。
3 - 群集对拓扑 Pair+M 拓扑 pair+M 拓扑包括一对直接连接到共享存储器的节点和一组附加的使用群集互连来访问共享存储器的节点--这组节点自身没有直接连接。此配置中的所有节点依然是使用卷管理器来配置的。下图展示了一个 pair+M 拓扑,其四个节点中有两个(节点 3 和 4)使用群集互连来访问该存储器。可以扩展此配置,以包含那些对共享存储器没有直接访问权的节点。
4 - Pair+M 拓扑 N+1(星型)拓扑 N+1 拓扑包括几个主节点和一个辅助节点。主节点和辅助节点的配置不必完全相同。一般由主节点提供应用程序服务。辅助节点在等待主节点出现故障时需处于空闲状态。辅助节点是配置中与所有多主机存储器有物理连接的唯一节点。如果主节点出现故障,Sun Cluster 则会进行失败切换,将资源切换至辅助节点,这些资源将在辅助节点继续作用,直到切换回(自动或手动)主节点。如果一个主节点出现故障,辅助节点必须具备足够的 CPU 能力处理负载。下图所示为 N+1 配置。 5 - N+1 拓扑