HPC高速運算平台
- 發布日期:113-08-01
- 更新日期:113-08-01
- 發布單位:諮詢服務組
HPC高速運算平台
服務說明
- 本GPU高速運算服務為提供本校各研究團隊進行AI相關研究使用。
- 目前有兩台Nvidia DGX H100伺服器提供服務,各搭載8片H100 GPU卡。
- 113年底前免費使用,以使用者所使用資源公平排程進行運作。
- 預計114年將開始收費,詳細收費辦法將於113年底前公佈。
- 一個服務帳號目前可提供資源如下,除了硬碟空間外,其它資源為工作(job)運算時所需的資源:
· 1 ~ 4 張 H100 GPU
· 4 ~ 24 顆 CPU
· 32 ~ 256 GB 記憶體
· 0.5 ~ 1 TB 硬碟空間
服務對象
- 本校編制內之教學與研究單位。
申請方式
- 申請作業:請至 HPC申請 網頁申請,經指導老師線上簽核後,需1 ~ 3個工作天完成帳號開立與資源設定作業,待服務準備好可使用後,申請者與指導教授將可收到平台連線資訊和相關訓練課程資料。
使用規範
- 本服務僅作為校園學術及研究用途,不得從事營利性商業用途,且須符合資通安全管理法及智慧財產權相關規定。如使用者帳號遭遇重大資訊安全事件或違反上述規定情節重大者,本中心得立即暫時停止該帳號服務。
- 本服務專注於提供高效能運算服務,不負責任何資料遺失, 亦不提供備份還原等功能, 使用者需自行備份資料。
- 本服務之使用應遵守「國立陽明交通大學校園網路使用規範」之規範。
- 其他事項請參考「資通安全管理法」、「個人資料保護法」、「政府資訊公開法」、政府機關及本校相關資訊安全管理規範
使用需知
- 使用者帳號設定:
· 因資安規範,須限制存取IP,而每個帳號可設定兩組IP進行存取。
· 一位指導老師可由本人或實驗室成員申請兩個帳號。
- 服務提供排程運作方法:
· 以每位老師所使用的資源(GPU數*使用時間)進行排程,資源使用量越低的老師所屬帳號優先級越高。
· 每星期一中午資源重新統計,重置各帳號優先級。
- 平台使用重要提醒:
· 使用前,請務必完成閱讀相關訓練課程資料,因若提供的工作(job)腳本設定不正確,可能導致該工作不會進入可執行狀態而被排程。
· 請務必為每個工作(job)設定正確的資源使用量(包含CPU、Memory、GPU和TimeLimit),並不得超過申請或規定之上限,否則該工作將可能不會進入可執行狀態而被排程。
· 不論所傳送工作的執行結果,該工作所使用的資源皆會被計入,例如可能因設定錯誤或執行時間過長導致工作產生cancelled、failed或timeout等狀態。
- 目前每個工作執行時間最長可設定為 12 小時 (job的TimeLimit),未來可能將依使用狀況進行調整,將寄信通知所有使用者。
· 若某一工作運算時間超過12小時未完成,而工作隊列中尚無等待該工作所使用之資源,系統將不中斷此工作運算,直到工作運算結束或有新工作需使用該資源為止。
- 系統會在以下重要時間點自動寄出提醒信件
· 每週帳號使用資源彙報 (給指導老師和使用者信箱)
· 運算工作狀態改變 (給使用者信箱)