談私有LLM伺服器產品，有什麼優點？要花多少錢？成本效益如何？

隨著AI在企業和不同機構使用越來越廣，很多企業為了資料安全或者服務水平等等原因，都會考慮架設自己的LLM伺服器，不過，之前因為開源模型技術未成熟，效率和效果都不佳，巨額投資下，表現亦不太出色，隨著以LLAMA為首的開源LLM，今年大幅提升，一些小模型都可以應付到日常使用，間接令投資門檻降低，自架LLM伺服器成為了很多中至大型企業會考慮的方案。

剛好，Lenovo PCCW Solutions（LPS）最近在香港推出一系列私有LLM伺服器 NeuroNode ，TechApple 找到他們的LPS智慧工程及數字化技術方案業務主管李振明 (CM Lee，以下簡稱CM)進行訪談，看看這類產品現在的發展。

自架 LLM 三大痛點：投入高昂，設定費時，更新頻密

之前很多機構都不考慮自架LLM，除了硬件投入高昂之外，設定費時，而且版本更新頻密也是一大主因，人力和硬件的開銷巨大，根據CM表示，這次他們的 Lenovo ThinkSystem SR650 就是針對這情況設計，首先在硬件上，他們嘗試盡量設計成針對LLM的配置，選取的硬件亦會考慮到性價比和兼容性，更會考慮到省電能力，以提升競爭力，主要的三種規格如下：

Model	Lenovo Server	CPU Core	RAM	NVIDIA GPU	GPU Memory	Qty. of GPU	Total GPU Memory	Category
P1	SR650 V2	24	256GB	T4	16GB	4	64GB	Basic
P2	SR650 V3	24	256GB	RTX4500	20GB	4	80GB	Standard
P3	SR650 V2	24	256GB	A10	24GB	4	96GB	Advanced

效率如何？每秒可以處理多少Tokens？

以配置最高的P3為例，價格約20至25萬港元一台，使用4張A10，處理能力方面，根據CM提供的資料，如果運作比較新的LLAMA 3.1 70B版，大約是 3 token/s，雖稱不上很好，但考慮到其較強之處理複雜任務及推理能力，大抵是能用水平，如果使用體量較小的LLAMA 3.1 8B模型，速度就可以達到約 57 Tokens ，而且因為只用到2張卡，理論上可以雙開，達到約 57 x 2 Tokens/s，對一般任務具有相當可用性，之前較小體量LLM模型的表現一直欠佳，但自從去年各大廠相繼通過對訓練數據優化、模型改進以及跟進各種Mini和Flash之類的模型後，小體量LLM的效果已經大大提升，每次最高能處理的context windows亦可以達到約100-128k Tokens，可用性跟一兩年前不可同日而語。同時，這系列亦支援彈性加機，用戶可以透過增加更多機組的方法，直接提升處理能力，有一定擴充性。

其次，這系列產品已經預裝好多種LLM，而且都經過測試，用戶只要簡單Deploy就可以，免卻各種軟硬不兼容的情況，據CM表示，他們也會有更新跟進，如果模型有更新，他們會在測試好後提供給保用期內的用戶升級。

另一個開發者關心的問題，是這系列產品支援兼容Open AI API的API接口，如果使用的軟件和方案正使用Open AI API，只要小量變動就可以馬上使用，是一大優點。同時，因為系統可以做到不連上互聯網使用，數據安全性可以大大增加，而且亦可以用不同方法(如RAG)等去提升針對某些數據的表現，作為內部工具有一定優勢。

除了優點，也有注意點

說完優點，我們也要提一些現階段的注意點，首先，開源LLM雖然說進步很大，但事實上，跟現在最頂尖的模型，如 GPT-4o，Claude 3.5在處理複雜任務及推理表現上還是有相當差距，加上使用的模型一般規模較細，專業或複雜的工作，要通過一些技巧如Prompt Engineering（提示工程）、In-Context Learning（上下文對應範例）來提高其效果，作為通常用工具，私有LLM伺服器不是其最大優勢，主要優勢還是在資料安全性和內部使用優化的部份，是否值得，還看應用場景。