Anthropic 20250523正式發布的 Claude 4 系列模型(包含 Claude Opus 4 與 Claude Sonnet 4) 具有多項主要特色,號稱是全球最強大的編碼模型,並在推動 AI 模型邁向更自主的 AI Agent(AI 代理)方面取得了顯著進展。以下是 Claude 4 系列模型的主要特色:
1.卓越的程式設計與編碼能力:
Claude Opus 4 被稱為世界上最強大的編碼模型。在衡量程式設計能力的基準測試如 SWE-bench Verified (Opus 4 獲得 72.5%,Sonnet 4 獲得 72.7%) 和 Terminal-bench (Opus 4 獲得 43.2%) 中,Claude 4 系列領先於 OpenAI 的 GPT-4.1、o3 和 Google 的 Gemini 2.5 Pro。Opus 4 在處理複雜、長時間運行的編碼和代理任務方面表現出色。
它非常擅長理解程式碼、規劃新增內容,並能進行遷移和重構,既有效又準確。Sonnet 4 在程式設計和推理能力上是 Claude 3.7 Sonnet 的重大升級,能更精準地遵循提示指令1...。GitHub 表示 Claude Sonnet 4 在代理場景表現出色,將扮演驅動 GitHub Copilot 的關鍵角色。資料中展示了 Claude 4 生成複雜程式碼的能力,例如設計手機 APP、產品到期提醒的 Web 應用,以及有趣的小遊戲(飛行射擊、打地鼠),並且能在短時間內完成。
2.增強的 AI Agent 能力:
Claude 4 系列的推出,是 Anthropic 將模型距離 AI Agent 更近、提升其能力的重要舉措。其核心在於**「自主性」(Autonomy)與「長時間持續運作」**的突破,模型能自主規劃、執行複雜任務,甚至長時間維持運作狀態。Claude 4 在任務執行方面取得進步,這很大程度上得益於增強的工具使用能力。透過 MCP(Model Completion Protocol)等機制,模型可以與外部系統互動2...。API 中提供了程式碼執行工具、MCP 連接、檔案 API 和提示快取功能,讓 Claude 能夠接觸使用者所在的世界與系統。Opus 4 的記憶能力大幅領先其他模型,可以建立並維持記憶檔案,儲存關鍵資訊,確保長期任務的處理意識和連貫性5...。模型能夠建立檔案、處理檔案、載入數據並無縫地交織(interleave)推理與行動。能在長時間運行任務中以完整情境運作,並透過檔案 API 維護記憶體和情境。資料中提到的「電腦使用」(Computer Use)功能(雖然介紹時與 3.5 Sonnet 相關,但其概念與 Claude 4 的 Agent 能力緊密相連,由其能力提升所支援),允許 Claude 模擬人類操作電腦,執行自動填寫表單、撰寫程式碼、安排行程等任務,展現了規劃與解決問題的能力。
3.混合架構與靈活的思考模式:
Claude 4 系列的 Opus 4 和 Sonnet 4 都採用了混合架構。支援兩種運行模式:即時回應(快速響應),適用於日常問答和輕量任務;以及擴展思考(深度推理),適用於更深入的推理和解決高難度問題。這種設計讓模型能夠像人類使用單一大腦進行快速反應和深度思考一樣,根據使用者需求靈活切換模式。
4.平行工具調用能力:
Claude 4 新增了**平行工具調用(Parallel tool calling)**功能。這使得 Claude 能夠同時使用多個工具或呼叫多個 API,例如一次性獲取多個來源的商品價格、天氣、新聞、股價等資訊並進行彙整,而無需一個一個順序執行。
5.對特定領域的潛力:
Anthropic 創辦人 Dario 對 Claude 4 在**網路資安(Cybersecurity)和生物醫學(Biomedical)**這兩個領域的潛力感到特別興奮。他認為新模型已經跨越了關鍵門檻,能在網路資安(被視為高階的程式設計任務)方面提供強大助力。憑藉 Opus 模型的精密研究能力和對數據分析的掌握,預計能在生物醫學領域發揮關鍵作用,極大提升計算生物學家的工作效率。
6.不同的模型版本與定價:
Claude 4 系列發布了 Opus 4 和 Sonnet。Claude Sonnet 4 可供免費使用者在 Claude 官方聊天介面使用。Claude Opus 4 則是付費版本,僅限 Claude Pro、Max 或 Team 等付費方案以及 API 調用使用3...。Opus 4 的 API 價格(每百萬 Token 輸入 15 美元,輸出 75 美元)約是 Sonnet 4(每百萬 Token 輸入 3 美元,輸出 15 美元)的五倍。
Opus 4 和 Sonnet 4 的 Context Window 大小均為 200K,而企業版(Enterprise)的 Context Window 可達 500K。
總結來說,Claude 4 系列的核心特色在於其強大的編碼能力,以及透過工具使用、記憶管理和對情境的理解,顯著提升了模型的代理與自主執行複雜任務的能力,並在不同版本中提供免費使用的 Sonnet 4 和功能更強大的付費 Opus