超越電腦的大腦:強化負載分配,釋放CPU最高效能
三星新聞中心第二篇特輯報導專訪兩位專案負責人,探索CPU及NPU之於行動裝置的重要性。電腦的中央處理器(CPU)好比大腦-人腦當中最大的部分,負責指揮各功能運作;同理,CPU就是電腦運作的核心,掌管四大功能:儲存、解碼、執行與控制,亦決定電腦整體效能。同理可知,行動CPU執行作業系統(OS)上的所有軟體,同時控制周邊硬體,將手機維持在最高效能。
CPU效能取決於時脈速度(註一)、IPC(註二)和核心數(註三)等眾多因素。舊款手機搭載單核心CPU與基本管線(pipeline)架構,平行運算能力有限,最大頻率僅有數百MHz。而今日,手機CPU採用超純量 (superscalar)(註四)架構,可平行處理多項指令;其時脈速度達3 GHz,等於每秒執行30億個週期,並採用八核心或以上的多核架構。目前行動CPU的微架構,已比桌上型電腦的CPU更加強大。
Exynos行動處理器的CPU架構,從大核進化至大小核、再升級至大中小核,尺寸小之餘,也具備低功耗。採用大小核架構的處理器,會依據任務要求動態調度大核與小核,實現效能或能源效率最佳化。例如,傳簡訊和玩3D遊戲的CPU效能需求不同,傳簡訊只需較省電的小核,不必動用高效能核心。
三星SoC設計第二團隊專案負責人Wookyeong Jeong負責Exynos的CPU整體表現,他表示:「CPU決定所有系統的競爭力,包括SoC在內,可說是牽一髮而動全身,所以先進半導體技術研發會從CPU著手。」自他加入三星電子以來,Jeong已在CPU領域累積逾20年經驗。
Jeong說明:「關鍵是在低功耗條件下提升處理效能。透過妥善調度CPU的大、中、小核,可隨時保持最高效率。」Exynos行動處理器有效分配各核心的工作負載,即使是玩手機遊戲或攝影等效能吃重的任務,也能提供順暢的使用體驗。
三星電子以IC設計公司Arm的IP為基礎,研發效能更上一層的CPU。談及研發團隊的工作內容,Jeong分享如下:
「首先依據產品要求訂定CPU效能目標,取得CPU的IP、預測與評估效能,並執行驗證和偵錯(註五),才能進入量產或後續階段。我們負責CPU整體研發,找出提升效能的關鍵。」Jeong進一步解釋。「三星系統半導體事業部以Arm的RTL CPU架構為基礎,打造最先進的半導體晶片。團隊也負責設計與製作CPU周邊電路,例如合適的次記憶體系統,以發揮CPU最大效能。」
談到三星未來研發方向,Jeong回答:「在Arm的CPU架構助攻下,三星致力打造業界最佳行動CPU,從晶片到裝置全面優化軟體效能,目標是成為E2E(註六)完整解決方案供應商。為實現此目標,CPU研發團隊從研發初期階段便與Arm、裝置製造商、三星晶圓代工廠等夥伴密切合作。團隊也嘗試導入先進封裝技術,多管齊下推升效能表現。」
他補充:「因應AR與元宇宙浪潮,如何妥善統合CPU、GPU和NPU等各處理器,完整滿足機器學習的運算要求,將成為三星SoC產品勝出的關鍵。接下來CPU將重點針對機器學習進行優化,讓三星更具競爭力。」
將想像化為真實:三星六代專利NPU進化不息
NPU是針對深度學習(註七)演算法優化的高效處理器,其如同人類的神經系統,能快速處理龐大資料,因此主要應用於AI算術運算。儘管看似複雜,NPU的應用其實已相當普遍。例如手機相機在NPU加持下,能清楚辨識畫面中的物體、環境與人物並調整對焦;拍攝美食會自動套用食物濾鏡,甚至可以去除不想要的雜物。
尚未發明NPU之前,AI運算主要由GPU負責。然而,因硬體架構不同,運算效率(註八)差強人意。如今,NPU針對平行處理進行優化,能加速執行AI應用,同時保持低功耗,讓行動裝置也具有高速運算的能力。
三星自2016年開始研發搭載NPU的Exynos行動處理器;2019年Galaxy S10採用的Exynos 9820,是首款搭載NPU的SoC晶片。「六年前,專案團隊剛成立時只有20人左右,現在加上國外研究團隊,人數已達10倍之多。」專案負責人Suknam Kwon表示,他過去負責SoC硬體設計,從第二代開始投入NPU研發。「現在大家都在研發NPU,但這在以前是完全陌生的領域,我們必須從國外的影片和大學課程找答案。」
過去,搭載NPU的裝置很少見,主要用於圖像中的物體辨識。進入AI時代後,具有大量資料運算能力的高效能IP市場需求日增,可用來提升相機畫質、增強語音服務等等。而IP的尺寸和功耗與效能成正比,因此找出效率最高的架構至關重要。
NPU日益強大,物體辨識速度與影像增強的表現也更進步。新一代Exynos的NPU效能較前一代提升兩倍。三星SoC設計團隊迄今已自主研發六代NPU產品,專業知識與技術實力在業界皆為首屈一指。Kwon表示:「Exynos的NPU在ML Per、能源效率、尺寸等基準跑分相當出色,是IP解決方案中的佼佼者。此NPU採用效能最佳化架構,擁有高能源效率,令Exynos如虎添翼。」
展望未來,NPU技術應用將不斷進化。Kwon補充道:「我認為直接在手機處理AI運算,不必透過伺服器的智慧終端(On-device AI)技術會更加普及,因為比較沒有敏感個資外洩的風險。正因如此,行動NPU效能需要更上一層。目前NPU已負責執行多項運算,但我預期未來NPU的運算要求將只增不減,由於每一種AI應用程式皆有特定演算法,所以提升NPU在各領域的處理能力也成了關鍵。」
談到自動駕駛,Kwon點出NPU在產業扮演的角色:「先進駕駛輔助系統(ADAS)將在不久後成真。ADAS需要硬體支援,以利即時執行使用大量資料的自駕演算法。此便仰賴高效能NPU的輔助,三星也依據市場需求,積極研發專為自駕設計的強大NPU。」
採訪最後,Kwon分享研發過程最具意義的時刻。「每年新一代Exynos皆搭載效能升級的NPU,這是很了不起的成就。未來NPU依然會是產業的重要IP。我很自豪能參與NPU的研發,不僅幫助我個人和公司成長,甚至對國家的整體競爭力都有貢獻。NPU將想像化為現實,是最有意義的工作。」
*本文所有圖像均為示意圖,僅供參考,可能與實際產品或產品拍攝圖像有所差異。所有圖像經數位編輯、修改或優化。
註一:時脈(Clock)指透過連續振盪產生運算所需的0或1訊號,單位是Hz。時脈越高,處理速度越快。
註二:IPC(Instructions per Cycle)指每一時脈週期可執行的指令數量,用來計算單一指令所需的時脈,是評估CPU效能的指標。
註三:核心(Core)是CPU中的實體處理單元,核心數越高,多工處理越容易。單核代表一個核心,雙核代表兩個,四核代表四個,以此類推。
註四:超純量(Superscalar)架構整合管線與平行處理的優點,可平行處理多管線的指令。由於能同時執行多項指令,不須互相等待,所以處理速度更快。
註五:偵錯(Debugging)階段將檢查程式能否正確執行,並找出與排除錯誤。
註六:端對端(End to End)。
註七:深度學習(Deep Learning)技術運用大量資料訓練機器像人腦一樣學習、推論與推理。
註八:行動SoC效率越高,代表功耗越低或速度越快。