時間:2015-06-28 00:00:00 來源:IT貓撲網(wǎng) 作者:網(wǎng)管聯(lián)盟 我要評論(0)
????該系列文章的目的是把分散在公共領(lǐng)域不同地方的、用各種硬件和軟件創(chuàng)建工作的 Linux 集群的過程所需要的信息,集中在一個地方。但是,這些文章并不打算介紹關(guān)于設(shè)計一個完整的新的大型 Linux 集群所需的基礎(chǔ)知識。請參閱參考資料下的參考資料和紅皮書獲得一般性的架構(gòu)指南。
????
??? 本系列的前兩部分介紹集群的安裝,概述了使用 IBM 系統(tǒng)管理軟件 —— 集群系統(tǒng)管理(ClusterSystemsManagement,CSM)進行的硬件配置和安裝。第一篇文章直切主題,介紹了硬件配置過程。第二篇文章介紹管理服務(wù)器的配置和節(jié)點安裝。本系列后續(xù)文章將介紹集群的存儲后端,包括存儲硬件配置以及 IBM 共享文件系統(tǒng) —— 通用并行文件系統(tǒng)(General Parallel FileSystem,GPFS)的安裝和配置。
???
??? 這個系列可供系統(tǒng)架構(gòu)師和系統(tǒng)工程師在使用 IBM eServer 集群 1350 框架規(guī)劃和實現(xiàn) Linux 集群時使用。(請參閱參考資料)。出于培訓(xùn)目的,正常集群操作中的一些內(nèi)容可能還與集群管理員有關(guān)。
???
??? 第 1 部分:集群的通用架構(gòu)
???
??? 在采取任何配置步驟之前,一個良好的設(shè)計至關(guān)重要。設(shè)計分為兩個部分:
???
??? ?物理設(shè)計
???
??? ?每種機架類型的機架布局(例如,管理機架和計算機架)
???
??? ?機房設(shè)計:在安裝和生產(chǎn)期間(如果兩者不同)應(yīng)當(dāng)如何布置機架
???
??? ?機架間的連接圖(用于網(wǎng)絡(luò)、電源、控制臺訪問等等)
???
??? ?機架內(nèi)的電纜連接(用于存儲、終端服務(wù)器等等)
???
??? ?邏輯設(shè)計
???
??? ?網(wǎng)絡(luò)設(shè)計包括:IP 地址范圍、子網(wǎng)配置、計算機命名規(guī)范等等
???
??? ?CSM 配置,包括:定制腳本位置、硬件設(shè)置、監(jiān)視需求
???
??? ?操作系統(tǒng)需求、定制包列表、系統(tǒng)配置選項
???
??? ?存儲布局,包括文件系統(tǒng)布局、分區(qū)、復(fù)制等等
???
??? 示例集群(請參閱圖 1)完全由基于 Intel? 或 AMD 的 IBM Systems 計算機以及附加的 TotalStorage 子系統(tǒng)構(gòu)成(關(guān)于這些系統(tǒng)的更多信息,請參閱參考資料?)為簡單起見,用千兆銅線以太網(wǎng)電纜提供集群的內(nèi)部連接。電纜在多數(shù)情況下可以用 bonded/port-channeled/etherchannel 鏈接提高機架間的帶寬,從而提供良好的傳輸速率 在這里插入自己喜歡的中繼項 。
????網(wǎng)絡(luò)拓撲采用星形結(jié)構(gòu),所有機架向后連接到管理機架的主交換機。示例集群使用三個網(wǎng)絡(luò):一個用于管理/數(shù)據(jù)(計算網(wǎng)絡(luò)),一個用于集群文件系統(tǒng)(存儲網(wǎng)絡(luò)),一個用于管理性設(shè)備的管理。前兩個網(wǎng)絡(luò)是普通的 IP 網(wǎng)絡(luò)。多數(shù)任務(wù)使用計算機網(wǎng)絡(luò),包括進程間通信(例如MPI)和集群管理。存儲網(wǎng)絡(luò)專門用于集群文件系統(tǒng)的通信和訪問。
???
??? 圖 1. 集群架構(gòu)圖
?
????
??? 示例集群的一些額外設(shè)計和布局細節(jié)包括:
???
??? ?
???
??? 管理服務(wù)器——
???
??? 管理服務(wù)器的功能可以放在一臺服務(wù)器或多臺服務(wù)器上。在單臺服務(wù)器環(huán)境中,管理服務(wù)器以獨立模式運行。也可以設(shè)置高可用性管理服務(wù)器??梢允褂?CSM
高可用性(HA)軟件在兩臺服務(wù)器之間進行 "心跳測試",在發(fā)生故障情況時管理服務(wù)器之間的動態(tài)故障屏蔽。引入額外管理服務(wù)器的另一種可行方法是:當(dāng)HA在環(huán)境中不重要的時候,使用復(fù)制設(shè)置。在這種情況下,可以把管理服務(wù)器的數(shù)據(jù)備份到其他活動系統(tǒng),可以通過手動設(shè)置將備份系統(tǒng)聯(lián)機以便接管管理工作(如果有必要的話)。在圖 1中,管理網(wǎng)絡(luò)連接用紅色顯示。管理服務(wù)器是 CSM 服務(wù)器,它使用 CSM 功能專門控制集群:負責(zé)系統(tǒng)安裝、監(jiān)視、維護和其他任務(wù)。在這個集群中,只有一臺管理服務(wù)器。
???
??? ?
???
??? 存儲服務(wù)器和磁盤 —— 可以用多種機制把多臺存儲服務(wù)器連接到基于磁盤的后端??梢杂霉饫w、銅纜或結(jié)合使用二者,直接把存儲器連接到集群,或者通過存儲區(qū)域網(wǎng)絡(luò)(SAN)交換機連接(請參閱圖 1)。
???
??? 這些服務(wù)器為集群中的其他服務(wù)器提供共享的存儲訪問。如果需要數(shù)據(jù)備份,請用額外的銅纜或光纖鏈路把備份設(shè)備連接到存儲服務(wù)器。對于示例集群,存儲的備份端是個單一實體,提供了跨集群的共享文件系統(tǒng)訪問。本系列的下一篇文章介紹存儲硬件和集群文件系統(tǒng)設(shè)置、配置和實現(xiàn)的細節(jié)。
???
??? ?
???
??? 用戶節(jié)點
???
??? ——
???
??? 理想情況下,集群的計算機節(jié)點不應(yīng)該接受外部連接,只應(yīng)當(dāng)由管理員通過管理服務(wù)器訪問。系統(tǒng)用戶可以登錄到用戶節(jié)點(或登錄節(jié)點),在集群上運行他們的工作。每個用戶節(jié)點都包含帶有完整編輯功能的鏡像、必要的開發(fā)工具、編譯器和開發(fā)支持集群的應(yīng)用程序和檢索結(jié)果所必需的所有其他內(nèi)容。
???
??? ?
???
??? 調(diào)度器節(jié)點 —— 為了在集群上運行工作負荷,用戶應(yīng)當(dāng)把自己的工作提交到調(diào)度器節(jié)點。在一個或多個調(diào)度器節(jié)點上運行的調(diào)度器守護程序使用預(yù)定的策略在集群上運行工作負荷。與計算機點一樣,調(diào)度器節(jié)點也不應(yīng)當(dāng)接受來自用戶的外部連接。系統(tǒng)管理員應(yīng)當(dāng)從管理服務(wù)器管理它們。
???
??? ?
???
??? 計算節(jié)點 —— 這些節(jié)點運行集群的工作負荷,接受來自調(diào)度器的作業(yè)。計算機節(jié)點是集群中最常使用的部分。系統(tǒng)管理員可以輕易地使用管理服務(wù)器重新安裝或配置它們。
???
??? ?
???
??? 外部連接 —— 示例外部連接在圖 1中用綠色顯示。這些連接被看作在集群之外,所以本文將不多做說明。
????硬件配置裝配好機架并把它們放在適當(dāng)位置上,連接好全部電纜之后,仍要做大量的硬件配置工作。本文不介紹特定于某種具體集群的特定電纜連接細節(jié)。本文使用了上面列出的示例集群設(shè)計作為具體示例,說明了在安裝集群前所需的硬件配置
???
??? 邏輯網(wǎng)絡(luò)設(shè)計
???
??? 在安裝集群時最常被忽略的任務(wù)就是邏輯網(wǎng)絡(luò)設(shè)計。理想情況下,在實現(xiàn)集群前,應(yīng)該在紙上進行邏輯設(shè)計。有了邏輯網(wǎng)絡(luò)設(shè)計之后,就用它創(chuàng)建主機文件。在小型集群中,如果網(wǎng)絡(luò)上沒有太多設(shè)備,可以手工編寫主機文件。但是,通常最好是生成一個命名規(guī)范,然后編寫一個定制腳本,自動生成主機文件.
#p#副標(biāo)題#e#
??? 確保網(wǎng)絡(luò)上的所有設(shè)備都在主機文件中表示出來。請看如下示例(包含示例名稱):
???
??? ?管理服務(wù)器 (mgmt001 - mgmtXXX)
???
??? ?存儲服務(wù)器 (stor001 - storXXX)
???
??? ?計算節(jié)點 (node001 - nodeXXX)
???
??? ?調(diào)度器節(jié)點 (schd001 - schdXXX)
???
??? ?用戶節(jié)點 (user001 - userXXX)
???
??? 這個命名規(guī)范只涉及了網(wǎng)絡(luò)中的五類計算機系統(tǒng),而且只有一個網(wǎng)絡(luò),所以還不夠好。還要考慮存儲網(wǎng)絡(luò)和計算機網(wǎng)絡(luò),以及設(shè)備管理網(wǎng)絡(luò)。所以這個文件還需要擴展。需要訪問集群文件系統(tǒng)的每個節(jié)點都需要存儲網(wǎng)絡(luò)上的一個地址。每個節(jié)點在計算網(wǎng)絡(luò)上需要兩個地址:一個用于計算地址,另一個用于基板管理控制器
???
??? (BMC),BMC 用來進行硬件監(jiān)視和電源控制。表 1 用示例 IP 地址范圍描述了更全面的命名規(guī)范。
???
??? 表 1. 主機文件命名規(guī)范
???
??? DeviceCompute 192.168.0.0/24BMC 192.168.0.0/24Storage 192.168.1.0/24Device 192.168.2.0/24External ext n/wManagement servermgmt001mgmt001_dmgmt001_smgmt001_mmgmt001_eStorage serverstor001stor001_dstor001_s
關(guān)鍵詞標(biāo)簽:Linux,集群
相關(guān)閱讀
熱門文章 安裝紅帽子RedHat Linux9.0操作系統(tǒng)教程 Tomcat9.0如何安裝_Tomcat9.0環(huán)境變量配置方法 多種操作系統(tǒng)NTP客戶端配置 Linux操作系統(tǒng)修改IP
人氣排行 Linux下獲取CPUID、硬盤序列號與MAC地址 dmidecode命令查看內(nèi)存型號 linux tc實現(xiàn)ip流量限制 安裝紅帽子RedHat Linux9.0操作系統(tǒng)教程 linux下解壓rar文件 lcx.exe、nc.exe、sc.exe入侵中的使用方法 Ubuntu linux 關(guān)機、重啟、注銷 命令 查看linux服務(wù)器硬盤IO讀寫負載