EP-26 NVIDIA 發的首款語音辨識模型:Parakeet TDT 0.6B V2,核心能力是它精確的詞級時間預測,還能自動加上標點符號和大小寫入

AI報報報

2025-05-0700:08:45

Available Platforms

英偉達發的第一款語音辨識模型:Parakeet TDT 0.6B V2,核心能力是它精確的詞級時間預測,還能自動加上標點符號和大小寫入

6個參數,可以準確預測單字的時鐘,主要用於英語識別
可以一次處理24分鐘的長錄音,不用分段處理
在口語數字和歌曲歌詞上表現也比較好

用於語音助理、佔領、字幕生成以及語音分析平台都可以

模型:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
留言告訴我你對這一集的想法: https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments

Comments