8 月 29 日消息,周四,微軟人工智能部門正式推出其首批兩款自研 AI 模型 ——MAI-Voice-1 語音模型與 MAI-1-preview 通用模型。據(jù)微軟介紹,全新的 MAI-Voice-1 語音模型僅需單塊 GPU,就能在 1 秒內(nèi)生成時(shí)長 1 分鐘的音頻;而 MAI-1-preview 模型則“讓用戶提前窺見 Copilot 未來功能的發(fā)展方向”。
目前,微軟已將 MAI-Voice-1 應(yīng)用于多項(xiàng)功能中:例如在“Copilot Daily”功能里,AI 主持人會通過該模型播報(bào)當(dāng)日熱點(diǎn)新聞;同時(shí),它還能生成播客風(fēng)格的對話內(nèi)容,幫助用戶理解各類話題。
普通用戶可在 Copilot Labs 平臺親自體驗(yàn) MAI-Voice-1:不僅能輸入希望 AI 表達(dá)的內(nèi)容,還可自定義語音音色與說話風(fēng)格。除這款語音模型外,微軟此次同步推出的 MAI-1-preview 模型,訓(xùn)練過程動用了約 1.5 萬塊英偉達(dá) H100 GPU。該模型專為特定需求用戶設(shè)計(jì),具備遵循指令的能力,可“為日常咨詢提供實(shí)用回應(yīng)”。
微軟 AI 負(fù)責(zé)人穆斯塔法?蘇萊曼去年在《Decoder》播客某期節(jié)目中表示,公司內(nèi)部研發(fā)的 AI 模型并未將企業(yè)級應(yīng)用場景作為核心方向,他解釋道:“我的思路是,我們必須打造一款對消費(fèi)者而言體驗(yàn)極佳的產(chǎn)品,并針對自身應(yīng)用場景進(jìn)行深度優(yōu)化。在廣告業(yè)務(wù)、消費(fèi)者行為數(shù)據(jù)等領(lǐng)域,我們擁有海量高預(yù)測性、高實(shí)用性的數(shù)據(jù),因此我的工作重點(diǎn)是構(gòu)建真正適配‘消費(fèi)者伙伴’定位的模型?!?/p>
據(jù)悉,微軟 AI 計(jì)劃將 MAI-1-preview 模型應(yīng)用于 Copilot 助手的特定文本使用場景(目前 Copilot 主要依賴 OpenAI 的大型語言模型)。同時(shí),該模型已開始在 AI 基準(zhǔn)測試平臺 LMArena 上進(jìn)行公開測試。
微軟 AI 團(tuán)隊(duì)在博客文章中寫道:“我們對未來發(fā)展有著宏大規(guī)劃。接下來,我們不僅會持續(xù)推進(jìn)技術(shù)突破,更相信通過整合一系列針對不同用戶需求與應(yīng)用場景的專業(yè)模型,將釋放出巨大價(jià)值?!?/p>