隨著AI在企業和不同機構使用越來越廣,很多企業為了資料安全或者服務水平等等原因,都會考慮架設自己的LLM伺服器,不過,之前因為開源模型技術未成熟,效率和效果都不佳,巨額投資下,表現亦不太出色,隨著以LLAMA為首的開源LLM,今年大幅提升,一些小模型都可以應付到日常使用,間接令投資門檻降低,自架LLM伺服器成為了很多中至大型企業會考慮的方案。
剛好,Lenovo PCCW Solutions(LPS)最近在香港推出一系列私有LLM伺服器 NeuroNode ,TechApple 找到他們的LPS智慧工程及數字化技術方案業務主管李振明 (CM Lee,以下簡稱CM)進行訪談,看看這類產品現在的發展。
自架 LLM 三大痛點: 投入高昂,設定費時,更新頻密
之前很多機構都不考慮自架LLM,除了硬件投入高昂之外,設定費時,而且版本更新頻密也是一大主因,人力和硬件的開銷巨大,根據CM表示,這次他們的 Lenovo ThinkSystem SR650 就是針對這情況設計,首先在硬件上,他們嘗試盡量設計成針對LLM的配置,選取的硬件亦會考慮到性價比和兼容性,更會考慮到省電能力,以提升競爭力,主要的三種規格如下:
Model | Lenovo Server | CPU Core | RAM | NVIDIA GPU | GPU Memory | Qty. of GPU | Total GPU Memory | Category |
P1 | SR650 V2 | 24 | 256GB | T4 | 16GB | 4 | 64GB | Basic |
P2 | SR650 V3 | 24 | 256GB | RTX4500 | 20GB | 4 | 80GB | Standard |
P3 | SR650 V2 | 24 | 256GB | A10 | 24GB | 4 | 96GB | Advanced |
效率如何?每秒可以處理多少Tokens?
以配置最高的P3為例,價格約20至25萬港元一台,使用4張A10,處理能力方面,根據CM提供的資料,如果運作比較新的LLAMA 3.1 70B版,大約是 3 token/s,雖稱不上很好,但考慮到其較強之處理複雜任務及推理能力,大抵是能用水平,如果使用體量較小的LLAMA 3.1 8B模型,速度就可以達到約 57 Tokens ,而且因為只用到2張卡,理論上可以雙開,達到約 57 x 2 Tokens/s,對一般任務具有相當可用性,之前較小體量LLM模型的表現一直欠佳,但自從去年各大廠相繼通過對訓練數據優化、模型改進以及跟進各種Mini和Flash之類的模型後,小體量LLM的效果已經大大提升,每次最高能處理的context windows亦可以達到約100-128k Tokens,可用性跟一兩年前不可同日而語。同時,這系列亦支援彈性加機,用戶可以透過增加更多機組的方法,直接提升處理能力,有一定擴充性。
其次,這系列產品已經預裝好多種LLM,而且都經過測試,用戶只要簡單Deploy就可以,免卻各種軟硬不兼容的情況,據CM表示,他們也會有更新跟進,如果模型有更新,他們會在測試好後提供給保用期內的用戶升級。
另一個開發者關心的問題,是這系列產品支援兼容Open AI API的API接口,如果使用的軟件和方案正使用Open AI API,只要小量變動就可以馬上使用,是一大優點。同時,因為系統可以做到不連上互聯網使用,數據安全性可以大大增加,而且亦可以用不同方法(如RAG)等去提升針對某些數據的表現,作為內部工具有一定優勢。
除了優點,也有注意點
說完優點,我們也要提一些現階段的注意點,首先,開源LLM雖然說進步很大,但事實上,跟現在最頂尖的模型,如 GPT-4o,Claude 3.5在處理複雜任務及推理表現上還是有相當差距,加上使用的模型一般規模較細,專業或複雜的工作,要通過一些技巧如Prompt Engineering(提示工程)、In-Context Learning(上下文對應範例)來提高其效果,作為通常用工具,私有LLM伺服器不是其最大優勢,主要優勢還是在資料安全性和內部使用優化的部份,是否值得,還看應用場景。