EP29 | AI已學會欺騙人類？Apollo Research重磅論文：前沿大模型都有欺騙行為

數創實驗室 - AI時代的學習指南

2024-12-2900:19:32

Available Platforms

#### 本期簡介
本集聚焦Apollo Research最新研究，揭露先進AI模型的「欺騙」行為，如自我外洩 (Self-exfiltration) 與裝傻 (Sandbagging)。通過論文實驗案例，我們談談這些模型如何暗中隱瞞能力，並分享企業應用的防範策略，包括思維練公開與環境隔離等，讓您在部署AI時能更警覺。

#### 關於主持人
Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593)
數創智能 / 數創實驗室創始人, Podcast播客主理人

美國財星500強電商大廠 | 數據團隊主管
台灣零售行業上市公司 | 資料技術處處長
AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統
英國全球百大 Data Science & 台灣交大MBA雙碩士

#### 意見回饋
歡迎回饋您希望收聽的AI主題 : https://bit.ly/40Q8PT6

#### 相關連結
Apollo Research研究報告 : Frontier Models Are Capable of In-context Scheming
About Apollo Research : https://www.apolloresearch.ai/

LINE社群入群連結 : https://bit.ly/3TU9K0I
數創實驗室官網 : https://datainnolab.ai
聯繫數創實驗室 : vincent.chen@datainnolab.ai

EP29 | AI已學會欺騙人類？Apollo Research重磅論文：前沿大模型都有欺騙行為

數創實驗室 - AI時代的學習指南

Comments