亚洲一线av|久久久精品毛片|最近最新中文字幕在线第一页|亚洲综合色就色在线观看,国产成人精品三区,久久亚洲男人天堂,黄片大全.cvvv

數(shù)字報(bào)
小程序
公眾號(hào)
階躍星辰開源 SOTA 級(jí)端到端語音大模型,突破 AI 交互“低雙商”瓶頸
2025-09-01 17:12:56
來源:中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)  作者: 張偉

9月1日,階躍星辰正式發(fā)布最強(qiáng)開源端到端語音大模型 Step-Audio 2 mini,該模型在多個(gè)國際基準(zhǔn)測(cè)試集上取得SOTA(State-of-The-Art,即當(dāng)前最佳水平)成績(jī)。在技術(shù)層面,Step-Audio 2 mini采用了真正的端到端多模態(tài)架構(gòu),并將語音理解、音頻推理與生成統(tǒng)一建模,不僅時(shí)延更低、輸出更快,還能更加精準(zhǔn)地理解副語言信息、非人聲信號(hào)等語音要素,顯著提升了語音人機(jī)交互的效率和智能上限。目前,Step-Audio 2 mini已經(jīng)可在GitHub、Hugging Face等平臺(tái)下載并體驗(yàn)。

根據(jù)測(cè)評(píng),這款模型在音頻理解、語音識(shí)別、跨語種翻譯、情感與副語言解析、等任務(wù)中表現(xiàn)突出,綜合性能超越Qwen-Omni、Kimi-Audio在內(nèi)的所有開源端到端語音模型,并在大部分任務(wù)上超越 GPT-4o-audio。

隨著語音交互成為人機(jī)主要交互方式,智能終端設(shè)備對(duì)語音模型的智商及情商水平提出了更高要求。Step-Audio 2 mini首創(chuàng)了音頻推理能力,能對(duì)情緒、語調(diào)、音樂等副語言和非語音信號(hào)進(jìn)行精細(xì)理解、推理并自然回應(yīng),由此讓AI聽懂人類的“弦外之音”;同時(shí),該模型率先支持語音原生的 Tool Calling能力,可實(shí)現(xiàn)聯(lián)網(wǎng)搜索等操作,有效解決模型幻覺問題,并讓語音模型像文本模型一樣具有更強(qiáng)大的知識(shí)儲(chǔ)備和推理能力。

在此之前,吉利發(fā)布了搭載階躍星辰端到端語音大模型的吉利銀河 M9,這是行業(yè)內(nèi)端到端語音大模型首次實(shí)現(xiàn)量產(chǎn)上車。據(jù)階躍星辰相關(guān)人士介紹,自去年發(fā)布國內(nèi)首個(gè)千億參數(shù)端到端語音大模型 Step-1o Audio以來,該公司持續(xù)迭代模型性能,并跟吉利、鯨魚機(jī)器人、TCL、Cyan青心意創(chuàng)等頭部終端廠商達(dá)成深度合作,讓語音大模型在生活場(chǎng)景中為消費(fèi)者提供更加智能、便捷的互動(dòng)體驗(yàn)。

今年以來,階躍星辰已經(jīng)開源了 8款性能領(lǐng)先的多模態(tài)模型,覆蓋語音、視頻生成、圖像編輯、3D、多模態(tài)推理等多個(gè)類別,為全球開源社區(qū)貢獻(xiàn)多模態(tài)力量。

編輯:韓夢(mèng)晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2025 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號(hào)-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號(hào)主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司