麻豆文化传媒精品一区-国产福利在线播放-国产最新自拍视频-精品国产露脸久久av-快色在线-精品国产乱码久久久久久鸭王1-91免费看-亚洲精品第一国产综合精品-明星毛片-亚洲精品日韩在线-亚洲片在线观看-国产精品视频免费-国产偷窥熟妇高潮呻吟-成人中文字幕在线-玖草视频在线观看

歡迎光臨托普仕留學!

面包屑導航圖標

當前位置:美國留學>留學資訊>失語癥福音!紐約大學研發(fā)出可微分語音解碼器

失語癥福音!紐約大學研發(fā)出可微分語音解碼器

上傳時間:2024-05-07 13:52:18瀏覽量:819

失語癥患者往往不能通過發(fā)音來說出自己的想法,所以很多時候存在不方便,紐約大學近期研發(fā)出一項成就,那就是讓失語者重新說話,利用AI打造可微分語音解碼器,幫助失語者來更好的表達,下面就隨tops留學老師一起來看看吧!

  一、站到巨人肩膀上創(chuàng)新

  通過采集皮層電圖(ECoG)的數(shù)據(jù)信號,模型可以將其轉換為可解釋的語音參數(shù)(如音高,響度,共振峰頻率等),并合成出既準確又自然的語音波形。

  腦機接口(BCI)在科研和應用領域的進展在近期屢屢獲得廣泛的關注,大家通常都對腦機接口的應用前景有著廣泛的暢享。

  比如,由于神經(jīng)系統(tǒng)的缺陷造成的失語癥不僅嚴重阻礙患者的日常生活,還可能限制他們的職業(yè)發(fā)展和社交活動。隨著深度學習和腦機接口技術的迅猛發(fā)展,現(xiàn)代科學正向著通過神經(jīng)語音假肢來輔助失語者重新獲得交流能力的方向邁進。

  腦機接口在解碼人的語音、動作等信號方面已經(jīng)有了一系列激動人心的進展。特別值得一提的是,埃隆·馬斯克(Elon Musk)的Neuralink公司在這一領域也取得了突破性進展。

  該公司成功地在一位試驗對象的大腦中植入了電極,實現(xiàn)了通過簡單的光標操作來進行打字、游戲等功能。這標志著我們在向更高復雜度的神經(jīng)-語音/動作解碼邁進的路上又進了一步。相比于其他腦機接口技術,神經(jīng)-語音解碼的復雜性更高,其研發(fā)工作主要依賴于特殊的數(shù)據(jù)源——皮層電圖(ECoG)。

  皮層電圖在臨床上主要是從進行癲癇治療的患者那里收集的,因為這些患者通常會植入電極以監(jiān)測大腦活動。研究人員利用這些電極,在發(fā)音時收集大腦皮層的數(shù)據(jù)。這些數(shù)據(jù)不僅具有高度的時空分辨率,而且已經(jīng)在語音解碼研究中取得了顯著成果,極大地推動了腦機接口技術的發(fā)展。通過這些先進技術的幫助,未來我們有望看到更多患有神經(jīng)障礙的人士重獲交流的自由。

  最近在《自然》雜志上發(fā)表的一項研究取得了突破,研究中在一位植入設備的患者身上使用了量化的HuBERT特征作為中間表征,結合預訓練的語音合成器將這些特征轉化為語音,這種方法不僅提高了語音的自然度,也保持了高準確性。

  然而,HuBERT特征并不能捕捉到發(fā)音者的獨特聲學特征,生成的聲音通常是統(tǒng)一的發(fā)音者聲音,因此仍需額外的模型來將這種通用聲音轉換為特定患者的聲音。

  另一個值得注意的點是,該研究及大部分先前嘗試采用了非因果架構,這可能限制了其在需要因果操作的腦機接口應用中的實際使用。

  2024年4月8日,紐約大學VideoLab和Flinker Lab聯(lián)合在《Nature Machine Intelligence》雜志上發(fā)表了一項突破性研究。

  這項名為“A neural speech decoding framework leveraging deep learning and speech synthesis”的研究,介紹了一個創(chuàng)新的可微分語音合成器。

紐約大學研發(fā)出可微分語音解碼器.png

  該合成器結合了輕量級卷積神經(jīng)網(wǎng)絡,能夠將語音編碼為一系列可解釋的語音參數(shù),如音高、響度和共振峰頻率等,并利用可微分的技術重新合成語音。

  此研究通過將神經(jīng)信號映射到這些具體的語音參數(shù),成功構建了一個高度可解釋并適用于小數(shù)據(jù)集的神經(jīng)語音解碼系統(tǒng)。這一系統(tǒng)不僅能重構出高保真且聽起來自然的語音,而且為未來腦機接口應用的高準確性提供了實證基礎。

  研究團隊共收集了48位受試者的數(shù)據(jù),并在這一基礎上進行了語音解碼的嘗試,為高精度腦機接口技術的實際應用和發(fā)展打下了堅實的基礎。

  圖靈獎得主Lecun也轉發(fā)了研究進展。

  二、研究現(xiàn)狀

  在當前神經(jīng)信號到語音解碼的研究中,面臨兩大核心挑戰(zhàn)。

  首先是數(shù)據(jù)量的限制:為了訓練個性化的神經(jīng)到語音解碼模型,通常每個病人的可用的數(shù)據(jù)時間總長僅約十分鐘,這對于依賴大量訓練數(shù)據(jù)的深度學習模型而言是一個顯著的制約因素。

  其次,人類語音的高度多樣性也增加了建模的復雜度。即便同一人反復發(fā)音拼讀同一個單詞,其語速、語調和音調等因素亦可能發(fā)生變化,從而為模型的構建增添了額外的難度。

  在早期嘗試中,研究者們主要采用線性模型來解碼神經(jīng)信號到語音。這類模型不需龐大的數(shù)據(jù)集支持,具備較強的可解釋性,但其準確率通常較低。

  近期,隨著深度學習技術的進步,特別是卷積神經(jīng)網(wǎng)絡(CNN)和循環(huán)神經(jīng)網(wǎng)絡(RNN)的應用,研究者在模擬語音的中間潛在表征和提升合成語音質量方面進行了廣泛嘗試。

  例如,一些研究通過將大腦皮層活動解碼為口型運動,再轉化為語音,盡管這種方法在解碼性能上較為強大,重建的聲音卻往往聽起來不夠自然。

  此外,一些新方法嘗試利用Wavenet聲碼器和生成對抗網(wǎng)絡(GAN)來重建自然聽感的語音,雖然這些方法能夠改善聲音的自然度,但在準確度上仍有局限。

  三、主要模型框架

  在該研究中,研究團隊展示了一種創(chuàng)新的從腦電(ECoG)信號到語音的解碼框架。他們構建了一個低維度的潛在表示空間,該空間通過一個輕量級的語音編解碼模型,僅使用語音信號來生成。

  這一框架包含兩個核心部分:首先是ECoG解碼器,它負責將ECoG信號轉換為一系列可理解的聲學語音參數(shù),如音高、是否發(fā)聲、響度及共振峰頻率等;其次是語音合成器部分,負責將這些參數(shù)轉換為頻譜圖。

  通過構建一個可微分的語音合成器,研究人員實現(xiàn)了在訓練ECoG解碼器的同時,也對語音合成器進行優(yōu)化,共同減少頻譜圖重建的誤差。這種低維度潛在空間的可解釋性強,結合輕量級的預訓練語音編碼器生成的參考語音參數(shù),使得整個神經(jīng)語音解碼框架高效且適應性強,有效解決了該領域中數(shù)據(jù)稀缺的問題。

  此外,這個框架不僅能生成與說話者非常接近的自然語音,而且在ECoG解碼器部分支持插入多種深度學習模型架構,并能進行因果操作。

  研究團隊處理了48名神經(jīng)外科病人的ECoG數(shù)據(jù),并使用了多種深度學習架構(包括卷積、循環(huán)神經(jīng)網(wǎng)絡和Transformer)來實現(xiàn)ECoG解碼。

  這些模型在實驗中均顯示了高準確度,尤其是采用ResNet卷積架構的表現(xiàn)最為出色。該研究框架不僅通過因果操作和相對較低的采樣率(10mm間隔)實現(xiàn)了高準確度,還展示了能從大腦的左右半球都有效進行語音解碼的能力,從而將神經(jīng)語音解碼的應用范圍擴展到了右腦。

  本研究的核心創(chuàng)新之一是開發(fā)了一種可微分的語音合成器,這大大提高了語音重合成的效率,并能合成接近原聲的高保真音頻。

  這種語音合成器的設計靈感來源于人類的發(fā)聲系統(tǒng),將語音細分為兩個部分:Voice(主要用于元音的模擬)和Unvoice(主要用于輔音的模擬)。

  在Voice部分,首先使用基頻信號生成諧波,然后通過由F1至F6共振峰構成的濾波器,以獲得元音的頻譜特征。

  對于Unvoice部分,通過對白噪聲進行特定濾波,生成相應的頻譜。一個可學習的參數(shù)控制這兩部分在每個時間點的混合比例。

  最后,通過調整響度信號和添加背景噪聲,生成最終的語音頻譜。

  基于這種語音合成器,研究團隊設計了一個高效的語音重合成框架及神經(jīng)-語音解碼框架。

  四、研究結果

  1、具有時序因果性的語音解碼結果

  在此項研究中,研究者首先對不同的模型架構進行了直接比較,包括卷積網(wǎng)絡(ResNet)、循環(huán)神經(jīng)網(wǎng)絡(LSTM)和Transformer架構(3D Swin),以評估它們在語音解碼性能上的差異。

  值得注意的是,這些模型均能執(zhí)行時間序列上的非因果或因果操作。

  在大腦-計算機接口(BCI)的應用中,解碼模型的因果性具有重要意義:因果模型只利用過去和當前的神經(jīng)信號來生成語音,而非因果模型還會參考未來的神經(jīng)信號,這在實際操作中是不可行的。

  因此,研究的重點在于比較同一模型在執(zhí)行因果和非因果操作時的性能表現(xiàn)。結果顯示,即使是因果版本的ResNet模型,其性能也能與非因果版本相媲美,二者之間沒有顯著的性能差異。

  類似地,Swin模型的因果和非因果版本性能相近,但LSTM的因果版本在性能上顯著低于其非因果版本。研究還展示了幾個關鍵的語音參數(shù)的平均解碼準確率(總樣本數(shù)為48),包括聲音權重(區(qū)分元音和輔音的參數(shù))、響度、基頻f0、第一共振峰f1和第二共振峰f2。

  準確地重建這些語音參數(shù),特別是基頻、聲音權重和前兩個共振峰,對于實現(xiàn)精確的語音解碼和自然地重現(xiàn)參與者聲音至關重要。

  研究結果表明,無論是非因果還是因果模型,都能提供合理的解碼效果,這為未來的相關研究和應用提供了積極的啟示。

  2、對左右大腦神經(jīng)信號語音解碼以及空間采樣率的研究

  研究者在最新的研究中進一步探索了左右大腦半球在語音解碼上的性能差異。傳統(tǒng)上,大多數(shù)研究主要集中在與語音和語言功能密切相關的左腦半球。

  然而,關于右腦半球在語言信息解碼方面的能力,我們了解的還很有限。為了探索這一領域,研究團隊比較了參與者左右腦半球的解碼性能,驗證了使用右腦半球進行語音恢復的可行性。

  在研究中收集的48位受試者中,16位的ECoG信號來自右腦。研究者通過比較使用ResNet和Swin解碼器的性能,發(fā)現(xiàn)右腦半球同樣能夠有效地進行語音解碼,其效果與左腦半球相近。這一發(fā)現(xiàn)為那些左腦受損且失去語言功能的患者提供了一種可能的語言恢復方案。

  研究還涉及到了電極采樣密度對語音解碼效果的影響。以往的研究多使用較高密度的電極網(wǎng)格(0.4 mm),而在臨床實踐中常用的電極網(wǎng)格密度則較低(1 cm)。

  本研究中有五位參與者使用了混合類型(HB)的電極網(wǎng)格,這類網(wǎng)格主要是低密度,但添加了一些額外的電極。其余四十三位參與者均使用了低密度采樣。

  結果顯示,這些混合采樣(HB)的解碼表現(xiàn)與傳統(tǒng)的低密度采樣(LD)相近,表明模型能夠有效地從不同密度的大腦皮層電極網(wǎng)格中學習語音信息。這一發(fā)現(xiàn)暗示了在臨床常用的電極采樣密度可能已足夠支持未來的腦機接口應用。

  3、對于左右腦不同腦區(qū)對語音解碼貢獻度的研究

  研究者還探討了大腦中與語音相關區(qū)域在語音解碼過程中的作用,這一點對于將來可能在左右腦半球植入語音恢復設備具有重要意義。為了評估不同大腦區(qū)域對語音解碼的影響,研究團隊采用了遮擋技術(occlusion analysis)。

  通過對ResNet和Swin解碼器的因果與非因果模型進行比較,研究發(fā)現(xiàn),在非因果模型中,聽覺皮層的作用更加顯著。這一結果強調了在實時語音解碼應用中使用因果模型的必要性,因為實時應用無法依賴未來的神經(jīng)反饋信號。

  此外,研究也顯示,無論在大腦的左半球還是右半球,傳感運動皮層特別是腹部區(qū)域對語音解碼的貢獻度都相似。這一發(fā)現(xiàn)表明,在右半球植入神經(jīng)假肢來恢復語音可能是一個可行的方案,提供了對未來治療策略的重要見解。

  五、結論(啟發(fā)展望)

  研究團隊開發(fā)了一種新型的可微分語音合成器,這一合成器使用輕型卷積神經(jīng)網(wǎng)絡將語音編碼為一系列可解釋的參數(shù),如音高、響度和共振峰頻率等,并利用同一可微分合成器對語音進行重新合成。

  通過將神經(jīng)信號映射到這些參數(shù)上,研究者們構建了一個高度可解釋并適用于小數(shù)據(jù)集的神經(jīng)語音解碼系統(tǒng),能夠生成自然聽感的語音。

  這一系統(tǒng)在48名參與者中表現(xiàn)出高度的可復現(xiàn)性,能夠處理不同空間采樣密度的數(shù)據(jù),并能同時處理左、右腦半球的腦電信號,展示了其在語音解碼方面的強大潛力。

  盡管取得了顯著進展,研究者也指出了模型當前的一些局限性,如解碼過程依賴于與ECoG記錄配對的語音訓練數(shù)據(jù),這對于失語癥患者可能不適用。

  未來,研究團隊希望建立能夠處理非網(wǎng)格數(shù)據(jù)的模型架構,并更有效地利用多病人、多模態(tài)的腦電數(shù)據(jù)。隨著硬件技術的持續(xù)進步和深度學習技術的快速發(fā)展,腦機接口領域的研究仍處于早期階段,但隨著時間的推移,科幻電影中的腦機接口設想將逐步成為現(xiàn)實。

  以上是關于紐約大學研發(fā)出可微分語音解碼器的全部新聞,如果還想了解更多關于美國留學申請方面的相關知識的,歡迎添加VX:Tops6868,托普仕留學專注世界高校申請,多年名校申請經(jīng)驗助力你的留學申請。

托普仕留學微信二維碼
公司地址

北京:北京海淀區(qū)中關村大廈14層

上海:上海黃浦區(qū)世界貿易大廈26層

深圳:深圳南山區(qū)大沖商務中心A座34層

成都:成都IFS國際金融中心三號樓32層

聯(lián)系方式

預約咨詢:400 - 686 - 9991

官方郵箱:service@topsedu.com

官方客服微信

Tops6868

[美國留學] [英國留學] [加拿大留學] [新加坡留學]

網(wǎng)站備案號:京ICP備11009754號-2 京公安網(wǎng)備110108001932

主站蜘蛛池模板: 最新女另类z000z000| 粗了大了 整进去好爽视频| 亚洲精品国产视频| 中文在线观看免费| 亚洲精品视频三区| 欧美精品1区2区| 黄色片怎么看| 日本一区二区在线| 岛国在线免费观看| 制服一区| 人妻一区二区三区免费| 视频一区视频二区在线观看| 中国18一19sex性| 狼人综合伊人| 在线欧美亚洲| 女同亚洲精品一区二区三| 色污网站| 内地毛片| 别揉我胸啊嗯摸湿p站| 中文字幕播放| 久久久一级| www.涩| 黄a在线观看| 中文字幕第3页| 欧美色图99| 国产系列在线| 成人久久免费视频| 黄色第一网站| 综合网在线视频| 日韩作爱视频| 欧美做受| 欧美一区二区三区日韩| 欧美顶级黄色大片免费| 综合色区| 久久精品人人爽| 99热黄色| 久久靖品| 蜜桃视频久久一区免费观看入口 | 国产h片在线观看| 三上悠亚在线观看一区二区| 好男人www在线视频| 二级生活片| 老头和老头交∫配| 日韩欧美在线观看一区| 日韩精彩视频在线观看| 精品成人无码一区二区三区| 动漫美女吸乳| 美女被男人捅| 久久日本| av最新版天堂资源在线| 亚洲骚图| www.久久综合| 女生被男生操网站| 亚洲国产mv| 被绑在床强摁做开腿呻吟| 色噜噜狠狠狠综合曰曰曰| 少妇与老头| 亚洲色图欧美视频| 日韩精品v| 香蕉视频黄污| 国产福利第一页| 一级看片免费视频囗交| 色天天天| 又黄又色的视频| 亚洲色婷婷久久精品av蜜桃| 亚洲三级电影网站| 91香蕉国产| 欧美插插视频| 国产v片在线观看| 天堂av小说| 午夜寂寞影院在线观看| 久久精品色| 伊人99re| 欧美黑人又粗又大高潮喷水| 国产精选91| 热99在线观看| 色天使在线视频| 国产一区=区| 青青草草| 成人欧美一区二区三区黑人| 日本wwwxx| 黄色大片在线| 久久成年网| 综合色影院| 亚洲高清影院| 天堂激情网| 日本黄页在线观看| 亚洲网站免费看| 可以免费看的黄色| 干爹你真棒插曲mv在线观看| 国产中出视频| 欧美日韩h| 亚洲丁香色| 99久草| 女人高潮潮呻吟喷水| 岛国片在线免费观看| 亚洲免费成人av| 不卡中文字幕在线观看| 日韩不卡视频在线|