《Disney +》 迪士尼、Marvel、彼思、星球大戰…  Hermen Hulst專訪問答:PlayStation Studios的下一步規劃   CPT Online 2021開幕戰「日本大賽1」LIVE播出詳情發表!   《Hades》於8月13日登陸PS4和PS5   親眼見證尤菲的超爽快動作!搶先一窺《FINAL FANTASY VII REMAKE INTERGRADE》尤菲的新篇章!   日本恐怖遊戲工作室Chilla’s Art最新作《The Night Way Home | 帰り道》將於8月7日發售   在 PS5 上遊玩《Call of Duty: Vanguard》的觸覺體驗   「任天堂直面會」將於日本時間2月18日早上7點起進行直播!並且有大約50分鐘的豐富內容!   《桃太郎電鐵~昭和 平成 令和也是基本款!~》發布免費更新!「桃鐵GP2021夏」夏季活動開跑! 

OpenAI 來玩遊戲:在 Montezuma’s Revenge 上的表現完勝人類

商業

之前,我們也報導過不少有關人工智能(AI)的新聞。不過,大多數都是關於AI應用在日常生活的情況,例如:醫療用的合成掃描、語言翻譯或者訓練機械人各種人類行為等。但最近,外國一家AI公司—OpenAI發現,讓AI來玩遊戲,表現也是相當驚人。

由Elon Musk、Reid Hoffman和Peter Thiel以及其他技術名人提供支持的非牟利AI公司OpenAI發表了一份研究論文,指AI在復古遊戲Montezuma’s Revenge的表現,十分驚人。在整個遊戲的24個房間中,AI在其中的22個房間的得分都排名第一。而今年6月,由OpenAI開發的機器人也在擊敗了Dota 2 上厲害的玩家團隊。

OpenAI表示,是次在Montezuma’s Revenge上的挑戰並沒有外界想像的那麼容易。因為Montezuma’s Revenge對於現時的Machine-Learning演算法來說,難度可謂是非常高。Montezuma’s Revenge這個遊戲過去也擊敗了Google旗下的AI公司DeepMind。

OpenAI是次的成功的原因,完全歸功於自家的RND(Random Network Distillation)。RND是被設計成可用於任何強化學習算法上,如使用獎勵和懲罰系統去驅動AI的模型。

以前,AI agent會從他們的經驗去預測下一個模型,並將預測的誤差用作內在獎勵。而RND則不同,RND引入獎勵模式,該獎勵是基於預測的下一狀態,固定和隨機初始化神經網絡的輸出。

在整個運作過程中,AI只是隨機地玩Montezuma’s Revenge,之後通過反複試驗去改進戰略。由於RND組件是被激勵去探索AI可能沒有到過的遊戲區域,所以即使沒有明確的指令也能實現遊戲的目標。

另外,RND也解決了強化學習方案中的另一個常見問題:所謂的噪聲電視問題,其中AI可能會卡在隨機數據中尋找模式(如電視上的靜態)。

除了攻破遊戲之外,OpenAI還掌握了許多AI的發展。去年,OpenAI開發了一種軟件,通過隨機化模擬場景中的顏色、光照條件、紋理和相機設置,為神經網絡生成高質量數據集。 而在今年2月,它發布了Hindsight Experience Replay(HER),這是一種開源演算法,有效地幫助機器人從失敗中吸取教訓。在在7月,OpenAI更推出了一個系統,指導機器人手掌握和操作具有最先進精度的物體。

資料來源:Venturebeat

這篇文章 OpenAI 來玩遊戲:在 Montezuma’s Revenge 上的表現完勝人類 最早出現於 TechApple.com

TechApple

隨機商業新聞

Disney Plus