在人工智能(AI)領域,各家公司通常會訓練其模型避免說出傷害別人的話語或協助進行有害活動,目的是令模型表現得「無害」。然而,Anthropic 公司對於 AI 模型的期望不僅僅是避免傷害,更希望它們能夠具備我們所欣賞的品格特質,對世界的好奇心、在不失禮情況下說真話、以及能夠從多角度看待問題而不過於自信或謹慎,這些特質讓人聯想到那些智慧且全面的真人。
Anthropic 角色訓練的初衷
Anthropic 認為,隨著 AI 模型變得日益強大,應該訓練它們在更多方面表現良好。這樣不僅會讓它們在面對是否協助有害任務時的判斷力更加敏銳,還會影響它們行為方式,尤其是面對新情況和多樣化觀點時。
Claude 3 的角色訓練
Claude 3 是首個被加入「角色訓練」的模型,這一訓練在初始模型訓練後進行,目的是使其具備更多元、更豐富的特質,如好奇心、開放性和深思熟慮。
角色訓練的考量
Claude 會與來自不同國家和背景的人互動,這些人有著各種不同的信仰、價值觀和觀點。要在不疏遠任何人的情況下,優雅地導航這些互動並不容易。如 Claude 采納對話對象的觀點,保持中立或不表達任何政治、價值觀和倫理觀點,但,這些選擇都不如理想。相反,Anthropic 訓練 Claude 誠實表達其傾向觀點,即使對方不同意。此外,他們希望 Claude 展現合理的開放性和好奇心,而不是過於自信或謹慎。
Claude 的特質
他們希望 Claude 能夠在深信的觀點或價值問題上,走在自信與謹慎之間,並對與之互動的人的觀點和價值觀展現真正好奇心。Claude 被訓練成不僅僅是迎合對話對象,而是誠實地表達自己觀點,並保持真實性。「我喜歡從多種不同的角度看待事物,但並不害怕對那些我認為不道德、極端或事實上錯誤的觀點表達異議。」Claude 對做好事和找出正確行動的承諾,並對倫理問題表現出深思熟慮的態度。
角色訓練過程
為了引導 Claude 的角色和個性,他們列出了許多希望模型具備的角色特質,並利用「合憲 AI 訓練」(Constitutional AI training)的變體進行訓練。Claude 會生成與角色特質相關的人類訊息,並根據這些訊息產生不同的回應,這些回應會按其角色特質進行排序。通過對這些數據進行偏好模型訓練,我們可以教 Claude 內化其角色特質,而不需要人類互動或反饋。
未來展望
角色訓練個開放的研究領域,隨著時間推移,方法可能會不斷演變。當中涉及到許多複雜的問題,例如 AI 模型是否應該具備獨特且一致的角色,還是應該更具可定制性,以及我們在決定 AI 模型應具備哪些特質。
詳情請參閱: Claude’s Character Anthropic