AI新星系列報(bào)道之五|武執(zhí)政:打造有情商的語(yǔ)音大模型
在科幻電影《Her》《非誠(chéng)勿擾3》中,AI或機(jī)器人能夠像真人一樣理解人類(lèi)的情感、情緒、察言觀(guān)色,也能像人一樣自然交流。這些場(chǎng)景正在逐步從銀幕走向現(xiàn)實(shí),而背后的關(guān)鍵技術(shù)正是語(yǔ)音交互的人工智能大模型。香港中文大學(xué)(深圳)武執(zhí)政教授團(tuán)隊(duì),正在通過(guò)構(gòu)建“有情商”的語(yǔ)音大模型,讓這一切變成現(xiàn)實(shí)。武執(zhí)政教授,由人工智能“黃埔軍?!蔽④泚喼扪芯吭哼M(jìn)入人工智能語(yǔ)音處理領(lǐng)域后,多年來(lái)一直深耕該領(lǐng)域,連續(xù)多年入選斯坦福大學(xué)“全球前2%頂尖科學(xué)家”,發(fā)布了多項(xiàng)具有世界影響力的開(kāi)源系統(tǒng)和數(shù)據(jù)集,被全球超過(guò)700多家機(jī)構(gòu)(包括OpenAI、英偉達(dá)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等)采用。硅谷知名投資人Jason Calacanis給武教授的開(kāi)源系統(tǒng)Amphion打出了“A+++”的最高評(píng)價(jià)!同時(shí),武教授的科研成果已經(jīng)落地到iPhone、Meta Quest等知名產(chǎn)品中。這與武教授給團(tuán)隊(duì)設(shè)立的價(jià)值觀(guān)密不可分:“Be a leader, not a follower(成為引領(lǐng)者而非追隨者)”,“Be bold and fight for excellence(勇于追求卓越)”。
?
硅谷知名投資人Jason Calacanis給武教授的開(kāi)源系統(tǒng)Amphion打出了“A+++”的最高評(píng)價(jià)!
?
學(xué)術(shù)有影響、產(chǎn)業(yè)有落地
打造百萬(wàn)瀏覽量的MaskGCT語(yǔ)音大模型
武執(zhí)政教授團(tuán)隊(duì)聯(lián)合微軟、中科大推出了Natural Speech 3大模型,是語(yǔ)音生成大模型領(lǐng)域第一個(gè)將數(shù)據(jù)量提升到10萬(wàn)小時(shí)級(jí)、參數(shù)量超過(guò)10億的大模型。武教授團(tuán)隊(duì)也聯(lián)手趣丸科技聯(lián)合推出了新一代大規(guī)模聲音克隆TTS模型——MaskGCT。相較于現(xiàn)有的TTS大模型,MaskGCT在語(yǔ)音的相似度、質(zhì)量和穩(wěn)定性上進(jìn)一步突破,尤其在語(yǔ)音相似度方面處于絕對(duì)領(lǐng)先地位。MaskGCT可以實(shí)現(xiàn)秒級(jí)超逼真的聲音克?。禾峁?-5秒音頻樣本即可復(fù)刻人類(lèi)、動(dòng)漫、“耳邊細(xì)語(yǔ)”等任意音色,且能完整復(fù)刻語(yǔ)調(diào)、風(fēng)格和情感;同時(shí),MaskGCT是更精細(xì)可控的語(yǔ)音生成:可靈活調(diào)整生成語(yǔ)音的長(zhǎng)度、語(yǔ)速和情緒,支持通過(guò)編輯文本編輯語(yǔ)音,并保持韻律、音色等方面的極度一致;該模型展現(xiàn)出超自然的語(yǔ)音克隆、風(fēng)格遷移以及跨語(yǔ)言生成能力,同時(shí)保持了較強(qiáng)的穩(wěn)定性。目前,MaskGCT在短劇出海、數(shù)字人、智能助手、有聲讀物、輔助教育等領(lǐng)域擁有豐富的應(yīng)用場(chǎng)景,將加速?lài)?guó)產(chǎn)短劇“走出去”,進(jìn)一步推動(dòng)中華文化在全球不同語(yǔ)境下的傳播。HuggingFace成員指出:“從來(lái)沒(méi)見(jiàn)過(guò)像MaskGCT這么讓人印象深刻的語(yǔ)音克隆模型”。目前,MaskGCT已經(jīng)落地到趣丸科技的千音(海外版名為All Voice)平臺(tái)?https://www.all-voice.com/?。
HuggingFace成員指出:“從來(lái)沒(méi)見(jiàn)過(guò)像MaskGCT這么讓人印象深刻的語(yǔ)音克隆模型”
武教授指出:“我們要做頂天立地的研究。頂天是學(xué)術(shù)上要有影響力,立地是讓科研能解決實(shí)際問(wèn)題,每篇文章的出發(fā)點(diǎn)都是要解決一個(gè)產(chǎn)業(yè)中面臨的難題。”武執(zhí)政教授團(tuán)隊(duì)與趣丸科技聯(lián)合建立了實(shí)驗(yàn)室,推動(dòng)語(yǔ)音技術(shù)在娛樂(lè)、教育等領(lǐng)域的應(yīng)用,也與華為、字節(jié)跳動(dòng)等企業(yè)建立了深度合作。
點(diǎn)擊圖片觀(guān)看MaskGCT聯(lián)合直播(突破2w+播放量)
?
從科幻到現(xiàn)實(shí):讓AI有情商
武執(zhí)政教授團(tuán)隊(duì)的研究,不僅重新定義了語(yǔ)音交互技術(shù)的邊界,更為AI技術(shù)在人類(lèi)生活中的應(yīng)用打開(kāi)了無(wú)限可能?!拔磥?lái)的AI不再只是工具,而是能夠理解我們、陪伴我們的‘伙伴’。我們希望通過(guò)技術(shù)的創(chuàng)新,讓AI真正融入人類(lèi)社會(huì),成為每個(gè)人的得力助手和知心朋友。”
2024年,武教授團(tuán)隊(duì)與字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)聯(lián)合研發(fā)的語(yǔ)音大模型Solla和全球首個(gè)語(yǔ)音情商評(píng)測(cè)基準(zhǔn)SD-Eval發(fā)布。語(yǔ)音大模型Solla專(zhuān)注于提升AI對(duì)人類(lèi)情感和語(yǔ)境的理解能力,讓AI能夠像一個(gè)知心伴侶般與人交流。SD-Eval是全球首個(gè)專(zhuān)注于語(yǔ)音大模型情商評(píng)測(cè)的基準(zhǔn),聚焦情緒、口音、年齡和背景聲四個(gè)維度,SD-Eval的發(fā)布填補(bǔ)了語(yǔ)音AI領(lǐng)域在情商評(píng)測(cè)方面的空白,為未來(lái)的語(yǔ)音AI研究提供了重要工具。SD-Eval的發(fā)布甚至早于OpenAI的ChatGPT-4o,成為語(yǔ)音大模型領(lǐng)域的重要里程碑。
武教授指出:“AI不僅需要完成任務(wù),還需要更懂你,能聽(tīng)出言外之意,也就是‘情商’。我們的目標(biāo)是讓AI不僅聽(tīng)懂人類(lèi)的語(yǔ)言,還能體會(huì)我們的情緒,與我們一起傾聽(tīng)這個(gè)世界?!?/p>
?
全球語(yǔ)音AI的開(kāi)源推動(dòng)者與學(xué)術(shù)引領(lǐng)者
武教授及其團(tuán)隊(duì)高度重視開(kāi)源社區(qū)貢獻(xiàn)及國(guó)際學(xué)術(shù)交流,積極參與和組織全球性學(xué)術(shù)活動(dòng)。
Amphion開(kāi)源系統(tǒng):引領(lǐng)音頻生成的開(kāi)源平臺(tái)
Amphion是一個(gè)由武執(zhí)政教授團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源音頻生成框架,自2023年底發(fā)布以來(lái),其創(chuàng)新性和多功能性迅速引起了全球矚目。被譽(yù)為“未來(lái)音頻生成技術(shù)的標(biāo)桿”,主要表現(xiàn)為:
技術(shù)創(chuàng)新:Amphion開(kāi)源系統(tǒng)架構(gòu)先進(jìn),該系統(tǒng)在音頻生成領(lǐng)域取得了突破性進(jìn)展,支持多種音頻生成任務(wù),包括文字轉(zhuǎn)語(yǔ)音(TTS)、歌聲合成(SVS)、語(yǔ)音轉(zhuǎn)換(VC)及文本到音樂(lè)(TTM)等多種音頻生成任務(wù),尤其在歌聲合成和轉(zhuǎn)換方面展現(xiàn)出卓越性能,支持生成高質(zhì)量的音頻和個(gè)性化音色,最新研究成果FACodec(與微軟、中科大合作)進(jìn)一步推動(dòng)了語(yǔ)音生成技術(shù)發(fā)展。
全球認(rèn)可:首次發(fā)布alpha版本,未經(jīng)任何公開(kāi)宣傳便多次登上GitHub Trending榜單,收獲8500+星標(biāo),展現(xiàn)出強(qiáng)大的技術(shù)吸引力;技術(shù)報(bào)告發(fā)布首日即登上Huggingface Daily Paper榜首,獲得Huggingface聯(lián)合創(chuàng)始人兼CTO Julien Chaumond的關(guān)注,硅谷著名投資人Jason Calacanis(Uber第三位天使投資人)給予“A+++,這是未來(lái)”的高度評(píng)價(jià),獲得Geeky Gadgets、MarkTechPost等國(guó)際媒體廣泛報(bào)道。

Emilia:被700多家單位采用的全球最大開(kāi)源語(yǔ)音數(shù)據(jù)集
武執(zhí)政教授敏銳地捕捉到語(yǔ)音大模型的發(fā)展趨勢(shì),阻礙語(yǔ)音大模型發(fā)展的最重要瓶頸在于數(shù)據(jù)。因此,其團(tuán)隊(duì)開(kāi)發(fā)了最大的開(kāi)源數(shù)據(jù)集Emilia,為全球語(yǔ)音大模型研究者提供了寶貴資源。Emilia是一個(gè)多樣化和高質(zhì)量的語(yǔ)音生成數(shù)據(jù)集,覆蓋了超過(guò)10萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù),支持六種語(yǔ)言(中文、英語(yǔ)、德語(yǔ)、法語(yǔ)、日語(yǔ)和韓語(yǔ)),語(yǔ)音數(shù)據(jù)涵蓋脫口秀、訪(fǎng)談、辯論、體育解說(shuō)等多種自然場(chǎng)景。Emilia已被全球700多家機(jī)構(gòu)采用,包括OpenAI、英偉達(dá)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等。Emilia成為HuggingFace音頻類(lèi)排行榜最受喜愛(ài)榜(most liked)第一名和趨勢(shì)榜(trending)第一名。
全球語(yǔ)音AI的學(xué)術(shù)引領(lǐng)者
武教授發(fā)起并組織了第一屆聲紋識(shí)別欺騙檢測(cè)國(guó)際評(píng)測(cè)、第一屆語(yǔ)音轉(zhuǎn)換國(guó)際評(píng)測(cè),組織了2019年語(yǔ)音合成國(guó)際評(píng)測(cè)(Blizzard Challenge 2019)。多次獲得最佳(學(xué)生)論文獎(jiǎng),廣東省人工智能產(chǎn)業(yè)協(xié)會(huì)科技進(jìn)步二等獎(jiǎng)等獎(jiǎng)項(xiàng)。武教授現(xiàn)為IEEE語(yǔ)音與語(yǔ)言處理技術(shù)委員會(huì)委員,語(yǔ)音領(lǐng)域權(quán)威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEE Spoken Language Technology Workshop 2024的大會(huì)主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等權(quán)威學(xué)術(shù)會(huì)議做特邀報(bào)告,也在OpenMMLab、語(yǔ)音之家、智源社區(qū)等平臺(tái)進(jìn)行技術(shù)分享,團(tuán)隊(duì)成員受邀至多所高校進(jìn)行學(xué)術(shù)交流,持續(xù)推動(dòng)開(kāi)源社區(qū)建設(shè),促進(jìn)技術(shù)創(chuàng)新與知識(shí)共享。
?
培養(yǎng)未來(lái)的AI領(lǐng)軍人才:
成為引領(lǐng)者而不是追隨者、勇于追求卓越
作為一名杰出的學(xué)術(shù)導(dǎo)師,武執(zhí)政教授不僅在科研領(lǐng)域取得了卓越成就,還通過(guò)高水準(zhǔn)的科研指導(dǎo),為國(guó)際AI領(lǐng)域培養(yǎng)人才。武教授給團(tuán)隊(duì)設(shè)立了價(jià)值觀(guān):“Be a leader, not a follower(成為引領(lǐng)者而不是追隨者)”,“Be bold and fight for excellence(勇于追求卓越)”,激勵(lì)同學(xué)們做出有影響力的研究。武教授的學(xué)生在全球競(jìng)爭(zhēng)中屢獲殊榮,多人進(jìn)入國(guó)際頂級(jí)實(shí)驗(yàn)室和企業(yè)實(shí)習(xí)與工作,在學(xué)術(shù)研究、行業(yè)實(shí)踐和國(guó)際化交流中表現(xiàn)出色,成為推動(dòng)人工智能發(fā)展的新生力量。
武教授注重為學(xué)生提供廣闊的國(guó)際交流平臺(tái),通過(guò)合作和學(xué)術(shù)訪(fǎng)問(wèn)幫助學(xué)生擴(kuò)展視野,提升科研能力,學(xué)生們受邀參加國(guó)際頂會(huì)ICML、ICASSP、INTERSPEECH等,發(fā)表高水平論文,并與來(lái)自全球的頂尖學(xué)者進(jìn)行學(xué)術(shù)探討。
武教授說(shuō):“香港中文大學(xué)(深圳)之所以能夠培養(yǎng)出在國(guó)際舞臺(tái)發(fā)光的新生力量,主要是學(xué)校的老師都是在科研一線(xiàn)親自指導(dǎo);同學(xué)們可以直接參與到與一線(xiàn)前沿企業(yè)的合作項(xiàng)目中,起點(diǎn)高;同時(shí),同學(xué)們有機(jī)會(huì)與國(guó)際上的實(shí)驗(yàn)室和研究者進(jìn)行交流;此外,港中大(深圳)的課程是沒(méi)有規(guī)定必須按照固定的教材上課,這樣老師可以把最新的研究成果和前沿信息帶到課堂中來(lái)?!?/p>
?
走進(jìn)中小學(xué),普及人工智能
武教授除了教學(xué)、科研、產(chǎn)學(xué)研轉(zhuǎn)化,他也抽出時(shí)間面向中小學(xué)生科普。武教授指出:“人工智能非常貼近我們的生活,應(yīng)該成為我們生活中的一部分。所以我們?cè)谧鲎屩行W(xué)生們感受到的人工智能技術(shù)時(shí),也應(yīng)該讓他們能夠聽(tīng)懂,能夠啟發(fā)他們更多的‘稀奇古怪’的想法。”
武教授也受聘為彩田學(xué)??茖W(xué)副校長(zhǎng),在彩田學(xué)校、中山紀(jì)念中學(xué)、天津振華中學(xué)等知名學(xué)校進(jìn)行了科普講座,也在圖書(shū)城等地方面向更廣泛的群體科普人工智能。武教授也正在策劃一套面向中小學(xué)生的繪本讀物,讓我們一起期待吧。
武教授受聘為彩田學(xué)校科學(xué)副校長(zhǎng)
武教授團(tuán)隊(duì)參展中山紀(jì)念中學(xué)科技節(jié),讓學(xué)生體驗(yàn)語(yǔ)音克隆大模型
?
青年教授簡(jiǎn)介
武執(zhí)政博士現(xiàn)任香港中文大學(xué)(深圳)副教授、博導(dǎo),港中大(深圳)-趣丸科技聯(lián)合實(shí)驗(yàn)室主任。入選國(guó)家級(jí)青年人才,連續(xù)多次入選斯坦福大學(xué)“全球前2%頂尖科學(xué)家”、愛(ài)思唯爾“中國(guó)高被引學(xué)者”榜單。
他于南洋理工大學(xué)獲得博士學(xué)位,并在Meta(原Facebook)、蘋(píng)果、微軟亞洲研究院等機(jī)構(gòu)從事學(xué)術(shù)研究和技術(shù)領(lǐng)導(dǎo)工作,參與創(chuàng)立多家公司(吸引超過(guò)6億人民幣投資)。武博士帶領(lǐng)開(kāi)發(fā)了開(kāi)源系統(tǒng)Merlin、Amphion及開(kāi)源數(shù)據(jù)庫(kù)Emilia,被超過(guò)700多家單位(包括OpenAI、英偉達(dá)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等)采用。他發(fā)起并組織了第一屆聲紋識(shí)別欺騙檢測(cè)國(guó)際評(píng)測(cè)、第一屆語(yǔ)音轉(zhuǎn)換國(guó)際評(píng)測(cè),組織了2019年語(yǔ)音合成國(guó)際評(píng)測(cè)(Blizzard Challenge 2019)。多次獲得最佳(學(xué)生)論文獎(jiǎng),廣東省人工智能產(chǎn)業(yè)協(xié)會(huì)科技進(jìn)步二等獎(jiǎng)等獎(jiǎng)項(xiàng)。武博士現(xiàn)為IEEE語(yǔ)音與語(yǔ)言處理技術(shù)委員會(huì)委員,語(yǔ)音領(lǐng)域權(quán)威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor,IEEE Signal Processing Letters的Associate Editor,IEEE Spoken Language Technology Workshop 2024的大會(huì)主席。
他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等權(quán)威學(xué)術(shù)會(huì)議做特邀報(bào)告。
