在2021世界人工智能大會(WAIC 2021)期間,上海燧原科技推出第二代人工智能(AI)訓練產品——“邃思2.0”芯片、基于邃思2.0的“云燧T20”訓練加速卡和“云燧T21”訓練OAM模組,全面升級的“馭算TopsRider”軟件平臺以及全新的“云燧集群”。


燧原科技成立于2018年3月,專注研發針對云端數據中心的深度學習高端芯片,定位于AI訓練及推理解決方案,是國內第一家同時擁有高性能云端訓練和云端推理產品的創業公司。經過三年多的飛速發展,截止今年5月,燧原科技員工人數已超500人,其中90%為研發人員。

燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS

中國最大的計算芯片


據介紹,燧原科技發布的邃思2.0是迄今中國最大的AI計算芯片,尺寸為57.5毫米×57.5毫米(面積為3306mm2),達到了日月光2.5D封裝的極限,與上代產品一樣采用格羅方德12nm FinFET工藝,內部共整合9顆芯片,單精度FP32算力為40TFLOPS,單精度張量TF32算力為160TFLOPS,整數精度INT8算力為320TOPS。相比之下,英偉達基于Ampere架構的A100 GPU的單精度浮點計算能力僅為19.5TFLOPS。


據介紹,邃思2.0進行了大規模的架構升級,采用了新一代全自研的GCU-CARA全域計算架構,針對人工智能計算的特性進行深度優化,夯實了支持通用異構計算的基礎;支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8,并成為中國首款支持單精度張量TF32數據精度的人工智能芯片。單精度FP32峰值算力達到40 TFLOPS,單精度張量TF32峰值算力達到160 TFLOPS,以上數據均為國內第一。


此外,通過對HBM2E存儲的采用,燧原科技讓“邃思2.0”擁有了海量的吞吐能力。


四大核心升級


燧原科技CEO趙立東則表示,第二代AI訓練產品的發布,是燧原科技開發原始創新的算力產品和構建自主生態又一重要的里程碑。


具體而言,2019年底,燧原科技發布了從啟動項目研發到發布用時僅18個月的云端訓練芯片邃思1.0,基于邃思1.0的云燧T10加速卡單精度算力高達20TFLOPS,以及AI推理加速卡云燧i10和配套的“馭算”軟件平臺。

燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS

而在兩年后的今天,燧原科技在第二代新品系列中進行了四大核心的全新升級迭代,其計算能力、存儲和帶寬、互聯能力較第一代訓練產品有巨大提升,對超大規模的模型支持能力獲得顯著增強:


1、架構升級實現算力飛躍。邃思2.0進行了大規模的架構升級,新一代全自研的GCU-CARA全域計算架構,針對AI計算的特性進行深度優化,夯實了支持通用異構計算的基礎;支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8,并成為中國首款支持單精度張量TF32數據精度的AI芯片。


2、HBM2E存儲帶來海量吞吐。邃思2.0的中心是主芯片,在邊緣有4顆三星最先進的存儲芯片HBM2E,高配支持64GB內存,最大帶寬達1.8TB/s。據悉,這是中國第一個支持世界最先進存儲HBM2E和單芯片64GB內存的產品。


3、高速互聯支撐算力擴展。新的計算架構帶來了全新GCU-LARE全域互聯技術——這是燧原專為人工智能訓練集群研發的互聯技術,提供雙向300 GB/s互聯帶寬,支持數千張云燧CloudBlazer加速卡互聯,實現優異的線性加速比。


4、不止是芯片,燧原也進行了全新軟件調配,推出燧原科技自主知識產權的計算及編程平臺馭算TopsRider。通過軟硬件協同架構設計,充分發揮邃思2.0的性能;基于算子泛化技術及圖優化策略,支持主流深度學習框架下的各類模型訓練;利用Horovod分布式訓練框架與GCU-LARE互聯技術相互配合,為超大規模集群的高效運行提供解決方案。


另外,燧原科技推出與了合作伙伴(浪潮等)共同打造的全新產品品牌云燧智算集群CloudBlazer Matrix 2.0,集合8192張云燧訓練卡,可實現最高1.3E(130000T)的單精度智能算力集群。據悉,E(Exascale)級計算就是百萬兆級的計算,是目前全球頂尖超算系統新的追逐目標。


不輸友商旗艦的加速卡


得益于邃思2.0的優越性能,燧原科技打造出了不輸友商旗艦的加速卡云燧T20/T21。在發布會上,燧原科技COO張亞林展示了T20與友商(英偉達V100、A100)的Benchmark對比跑分。

燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS

燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS

如上圖所示,燧原科技第二代通用人工智能訓練加速卡“云燧T20”是一個全高全長的PCIE板卡,在FP 32/TF 32下的峰值算力可以做到134.4T(單精度張量)和33.6T(單精度)。在BF16/FP16下的峰值算力則能做到134.4T。INT8的峰值算力更是達到了268.8T。這樣的數據讓其在與友商的旗艦相比,也能夠做到不相上下。這對于一個成立僅幾年的公司而言,是一個難得的成就。


至于采用OAM模組模式設計的云燧T21,如上圖所示,也在多個模式下擁有杰出的表現。


除了在計算能力上有了大幅度的提升,燧原科技同時還在互聯與軟件上同步投入,這讓公司能夠在降低開發者開發門檻的同時,還能提升板卡在系統中的性能。

燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS

據介紹,燧原在新產品中引入GCU-LARE全域互聯技術,作為一項公司專為人工智能訓練集群研發的互聯技術,GCU-LARE能提供雙向300 GB/s互聯帶寬,支持數千張云燧CloudBlazer加速卡互聯,實現優異的線性加速比。


與此同時,燧原自主知識產權的計算及編程平臺馭算TopsRider也獲得了升級。


燧原方面表示,通過軟硬件協同架構設計,全新的馭算TopsRider能夠充分發揮邃思2.0的性能;基于算子泛化技術及圖優化策略,能支持主流深度學習框架下的各類模型訓練;再通過利用Horovod分布式訓練框架與GCU-LARE互聯技術相互配合,為超大規模集群的高效運行提供解決方案。開放升級的編程模型和可擴展的算子接口,為客戶模型的優化提供了自定義的開發能力。

燧原科技發布中國最大的AI計算芯片 整數精度INT8算力達320TOPS

在發布兩款加速卡的同時,燧原還介紹了一個基于公司訓練卡打造的超大規模智算集群。張亞林告訴記者,這個名為云燧智能集群(CloudBlazer Matrix 2.0)的產品包含了8192張云燧訓練卡,可實現最高1.3E的算力。放眼全球,這在之前是沒有人能做到的?!斑@代表著燧原正使用集群化產品登上中國智能計算和新基建算力舞臺”,張亞林強調。


共推生態


在產品發布會的同期,燧原科技CEO趙立東還帶來了公司在生態方面的計劃。


他首先指出,在工業4.0“智造”時代,人工智能是關鍵動力。但因為摩爾定律放緩,產業必須會加快在異構計算的投入。那就意味著以芯片為核心的算力是工業4.0兵家必爭之地?;谶@個考慮,燧原科技推出了異構計算生態——“燎原”計劃。


趙立東表示?!傲窃庇媱澋哪繕擞腥齻€,分別是以人工智能為起點,構建通用異構計算生態;構建標準化的技術體系以及共建完整生態服務數字中國。而“燎原”計劃的內涵也包括繁榮開放的開發者生態、健康互利的產業生態和持續創新的教科研生態。


趙海東進一步指出,經過幾年的發展,燧原科技已經發展起了一個研發人員接近90%的超過五百人團隊。這個擁有深厚水平的團隊也圍繞芯片的方方面面,為公司積累下了52項專利(包括45項發明專利),公司同時還有近30項專利正在申請。


從當前的行業現狀看來,無論是在云端AI芯片,還是云端推理芯片,都擁有巨大的成長基于。尤其是對于中國的相關從業者而言,更是機會多多。而對于跑得比較快的燧原來說,他們正處于一個前所未有的好位置,未來也值得期待。


文章來源: 半導體行業觀察,鈦媒體

免責聲明

我來說幾句

不吐不快,我來說兩句
最新評論

還沒有人評論哦,搶沙發吧~