作者 | 方文三
人體器官的物理結(jié)構(gòu)會隨著生理和病理狀態(tài)的變化而改變,這導(dǎo)致不同疾病患者發(fā)出的聲音以及器官自身發(fā)聲產(chǎn)生特異性變化,這些聲音特征可以作為疾病的[聲音標(biāo)志物]。
聲學(xué)標(biāo)志物應(yīng)用于臨床的可行性提高
一個簡單的例子是,感冒患者的聲音會變得沙啞,這便是聲音特征變化的一種體現(xiàn)。
隨著數(shù)字時代的到來,聽診器這一擁有超過兩百年歷史的醫(yī)療工具煥發(fā)了新的生機(jī)。
數(shù)字聽診器通過電子技術(shù)將聲波轉(zhuǎn)換為高精度的數(shù)字化電信號,并經(jīng)過放大與處理,實現(xiàn)了比傳統(tǒng)聽診器更為清晰的聲音輸出。
加之人工智能技術(shù)的迅猛發(fā)展,將生物聲學(xué)標(biāo)志物應(yīng)用于臨床的可行性正逐漸從[遙不可及]轉(zhuǎn)變?yōu)閇觸手可及]。
然而,這一進(jìn)程并非一帆風(fēng)順。環(huán)境噪聲等外部因素會對音頻信號造成干擾,影響到咳嗽音特征的提取與分析。
受限于硬件性能,過去難以捕捉到高質(zhì)量的聲音信號。
值得慶幸的是,傳感器技術(shù)的快速進(jìn)步有效彌補了這一缺陷。
新一代電子聽診器采用壓電陶瓷傳感器作為拾音部件,相較于以往產(chǎn)品,其信號質(zhì)量和頻率響應(yīng)曲線更為優(yōu)異,能夠提供更準(zhǔn)確、清晰的心肺音信號,進(jìn)而精確獲取用戶的健康數(shù)據(jù)。
更為關(guān)鍵的是,智能手機(jī)作為聲音標(biāo)志物采集設(shè)備,在經(jīng)歷了多年的激烈競爭和技術(shù)革新后,其麥克風(fēng)拾音性能普遍有了顯著提升,足以滿足基本的音頻信號采集需求。
在克服了硬件障礙之后,聲學(xué)標(biāo)志物的發(fā)展正步入快車道。
谷歌大模型下場,進(jìn)入聲學(xué)標(biāo)志物AI領(lǐng)域研究
今年初,谷歌發(fā)布了名為Health Acoustic Representations(簡稱HeAR)的生物聲學(xué)基礎(chǔ)模型,該模型旨在協(xié)助研究人員開發(fā)出能夠通過監(jiān)聽人體聲音來識別早期疾病征兆的系統(tǒng)。
谷歌Research團(tuán)隊利用了一個包含三億條經(jīng)過去識別化處理的音頻數(shù)據(jù)集對HeAR進(jìn)行了訓(xùn)練,特別使用了一億條咳嗽聲音數(shù)據(jù)來訓(xùn)練咳嗽識別模型。
像HeAR這樣的解決方案,將使AI驅(qū)動的聲學(xué)分析在結(jié)核病篩查和檢測領(lǐng)域開辟新的可能性,為最需要的人群提供一種潛在的低成本、易于獲取的工具。
這項AI系統(tǒng)經(jīng)過對數(shù)百萬個音頻剪輯樣本的訓(xùn)練,未來有望輔助醫(yī)生診斷包括COVID-19和肺結(jié)核在內(nèi)的肺部疾病,并對個人的肺功能進(jìn)行評估。
HeAR的創(chuàng)新之處在于其使用的龐大訓(xùn)練數(shù)據(jù)集,以及其能夠針對多種不同任務(wù)進(jìn)行微調(diào)的能力。
在該領(lǐng)域開發(fā)的大多數(shù)人工智能工具都是通過音頻記錄進(jìn)行訓(xùn)練的,例如咳嗽的錄音,這些錄音與發(fā)出聲音者的健康信息相匹配。
例如,這些錄音片段可能會被標(biāo)記為錄音時該人患有支氣管炎。這些人工智能工具通過監(jiān)督學(xué)習(xí)(Supervised Learning)的訓(xùn)練過程,將聲音特征與數(shù)據(jù)標(biāo)簽相關(guān)聯(lián)。
而在本項研究中,谷歌的研究人員采用了自監(jiān)督學(xué)習(xí)(Self-supervised Learning),使用未標(biāo)記的數(shù)據(jù),并通過自動化過程,從公開的YouTube視頻中提取了超過三億個咳嗽、呼吸、清喉嚨及其他人類聲音的短片段。
每個片段被轉(zhuǎn)換為聲音的視覺表示——頻譜圖。研究團(tuán)隊隨后對頻譜圖的片段進(jìn)行了屏蔽處理,以幫助模型學(xué)習(xí)預(yù)測缺失的部分。
這與聊天機(jī)器人ChatGPT的大型語言模型在經(jīng)過大量人類文本示例訓(xùn)練后學(xué)會預(yù)測句子中下一個單詞的過程類似。
利用這種方法,研究團(tuán)隊構(gòu)建了一個基礎(chǔ)模型,該模型能夠適應(yīng)多種不同的任務(wù)。
研究顯示,HeAR在多項任務(wù)中的平均表現(xiàn)超越了其他模型,尤其在跨麥克風(fēng)泛化能力方面,展現(xiàn)了其在捕捉與健康相關(guān)的聲學(xué)數(shù)據(jù)中的顯著模式識別能力。
基于HeAR訓(xùn)練的模型即使在數(shù)據(jù)量有限的情況下也能實現(xiàn)高性能,這對于醫(yī)療研究領(lǐng)域中數(shù)據(jù)稀缺的問題具有特別重要的意義。
HeAR現(xiàn)已向研究人員開放,目的是促進(jìn)定制化生物聲學(xué)模型的快速發(fā)展,即使在數(shù)據(jù)稀缺或面臨成本和計算能力限制的情況下,也能為特定疾病和人群的研究提供支持。
8月底,谷歌宣布了HeAR模型的第一個應(yīng)用項目,將與印度企業(yè)Salcit Technologies合作,將HeAR應(yīng)用于肺結(jié)核的早期篩查。
Eko人工智能算法獲FDA首批,進(jìn)一步加速產(chǎn)業(yè)發(fā)展
在今年五月,Eko公司宣布其與數(shù)字聽診器相輔相成的人工智能軟件——[Eko低射血分?jǐn)?shù)工具(eleft)]獲得了批準(zhǔn)。
這一軟件被認(rèn)定為美國食品藥品監(jiān)督管理局(FDA)批準(zhǔn)的首個能夠輔助進(jìn)行心力衰竭早期篩查的人工智能算法,標(biāo)志著醫(yī)學(xué)領(lǐng)域的一項重大創(chuàng)新,緊接著在6月完成了4100萬美元的D輪融資。
通過Eko的人工智能技術(shù),醫(yī)生能夠在短短15秒內(nèi),僅憑數(shù)字聽診器采集到的心音,檢測出心臟低射血分?jǐn)?shù)(亦稱心臟低EF值)——這一指標(biāo)反映了心臟的收縮泵血能力。
射血分?jǐn)?shù)降低型心力衰竭(HFrEF)是心力衰竭的主要類型之一。
據(jù)數(shù)據(jù)顯示,在美國超過六百萬的心力衰竭患者中,約有一半患有射血分?jǐn)?shù)降低型心力衰竭。
Eko的人工智能算法與配套的數(shù)字聽診器相結(jié)合,能夠識別心臟雜音,有望在最初的常規(guī)檢查中,盡早識別出射血分?jǐn)?shù)降低型心力衰竭患者。
被識別出的患者隨后可以接受進(jìn)一步的檢查,以便及時進(jìn)行干預(yù)。
在2020年至2023年期間,Eko公司還獲得了多款醫(yī)療器械的批準(zhǔn),這些不僅包括升級版的數(shù)字聽診器,還包括能夠生成心音圖并對其進(jìn)行分析的人工智能算法。
其他企業(yè)也在該領(lǐng)域取得了實質(zhì)性進(jìn)展
另一家在業(yè)界享有盛譽的公司TytoCare,在去年8月完成了4900萬美元的融資。
其人工智能算法在7月底也獲得了FDA的進(jìn)一步批準(zhǔn),該算法能夠檢測成人及兩歲以上兒童的肺部濕啰音,從而有助于早期發(fā)現(xiàn)潛在的肺部疾病。
除了肺結(jié)核,哮喘和慢性阻塞性肺疾病(慢阻肺)也是生物聲學(xué)標(biāo)志物研究的重點。
澳大利亞的Resapp Health在該領(lǐng)域有著長期的研究積累,并已在澳大利亞上市。
該公司旗下兩款產(chǎn)品之一——SleepCheckRx,用于識別阻塞性睡眠呼吸暫停,已獲得FDA批準(zhǔn);
另一款產(chǎn)品ResAppDx則通過分析咳嗽和呼吸聲來輔助診斷肺部疾病,也已獲得CE認(rèn)證。
2022年底,制藥巨頭輝瑞以1.79億美元收購了Resapp Health。
例如,日本AMI(Acute Medical Innovation)旗下的AI聽診器,它能夠輔助識別瓣膜性心臟病(包括主動脈瓣狹窄)的早期征兆,在2022年10月獲得了日本醫(yī)療器械的審批。
TytoCare 在去年 8 月完成了 4900 萬美元的融資,其人工智能算法在 7 月底獲得了 FDA 的額外批準(zhǔn),可用于檢測成人和兩歲以上兒童的肺部濕啰音。
韓國的研究人員運用了基于進(jìn)化深度學(xué)習(xí)的逆向設(shè)計技術(shù),成功研發(fā)出一種先進(jìn)的聲學(xué)超材料。
釜山國立大學(xué)所開發(fā)的通風(fēng)聲學(xué)諧振器(VAR)超材料,具備了降低噪音與提供通風(fēng)的雙重功能。
傳統(tǒng)分析方法在處理形狀復(fù)雜的VAR時存在局限性,僅能實現(xiàn)基礎(chǔ)的參數(shù)設(shè)計。
釜山的研究團(tuán)隊創(chuàng)新性地開發(fā)了一種基于深度學(xué)習(xí)的逆向設(shè)計方法,該方法能夠靈活地設(shè)計復(fù)雜的非參數(shù)VAR,從而提升性能并降低計算成本。
在所提出的逆向設(shè)計方法中,條件變分自動編碼器(CVAE)——一種深度學(xué)習(xí)生成模型——對潛在空間中的VAR幾何特征進(jìn)行編碼。
潛在空間是一個低維空間,它包含了高維輸入(本例中為VAR)的核心信息。
這種聲學(xué)超材料的設(shè)計方法標(biāo)志著人工智能驅(qū)動的先進(jìn)制造(AM)以及其他復(fù)雜機(jī)械結(jié)構(gòu)設(shè)計領(lǐng)域邁出了關(guān)鍵性的一步。
這些企業(yè)的努力和成就共同推動了聲學(xué)標(biāo)志物 AI 領(lǐng)域的快速發(fā)展,使得這一新興領(lǐng)域展現(xiàn)出巨大的潛力和廣闊的應(yīng)用前景。
聲學(xué)標(biāo)志物AI在發(fā)展過程中面臨著一系列挑戰(zhàn)
①高質(zhì)量的音頻數(shù)據(jù)對于訓(xùn)練精準(zhǔn)有效的人工智能模型至關(guān)重要,但目前大多數(shù)醫(yī)療機(jī)構(gòu)尚未建立完善的音頻數(shù)據(jù)庫,這給模型的訓(xùn)練和優(yōu)化帶來了極大困難。
②由于聲音特征的復(fù)雜性和多變性,模型在不同環(huán)境和人群中的表現(xiàn)可能存在差異,導(dǎo)致結(jié)果的可靠性受到影響。此外,診斷準(zhǔn)確度的提升仍有很大空間。
盡管聲學(xué)標(biāo)志物AI展現(xiàn)出一定的潛力,但在面對復(fù)雜的疾病和個體差異時,仍可能出現(xiàn)誤診或漏診的情況。
③在通用音頻特征的基礎(chǔ)上,針對咳嗽的發(fā)聲特性以及特定疾?。ɡ绶谓Y(jié)核)的病理特征和癥狀表現(xiàn),設(shè)計精準(zhǔn)的特定疾病患者咳嗽音的靶點特征,以實現(xiàn)對特定疾病患者與健康人群以及其他肺部疾病患者的精確區(qū)分,這一問題仍需解決。
④通常,模型訓(xùn)練所用的音頻數(shù)據(jù)較為理想,但在實際應(yīng)用中,需要識別的音頻信號會受到各種干擾,這會影響咳嗽音特征的提取和分析。
不同拾音設(shè)備的性能差異也可能導(dǎo)致咳嗽音頻質(zhì)量和特性發(fā)生變化,進(jìn)而影響模型的診斷結(jié)果。
由于音頻數(shù)據(jù)的采集及標(biāo)注都較為困難,這要求模型在少量精標(biāo)注數(shù)據(jù)的條件下仍然保持較好的檢測性能。
如何解決小樣本數(shù)據(jù)和復(fù)雜模型學(xué)習(xí)之間的矛盾,也是一個亟待解決的課題。
結(jié)尾:
在模型訓(xùn)練過程中,如何通過數(shù)據(jù)增強(qiáng)、噪聲抑制等方法減輕噪聲影響,利用領(lǐng)域泛化技術(shù)消除設(shè)備差異,從而提升診斷模型的魯棒性,將是提升生物聲學(xué)標(biāo)志物模型實際可用性的關(guān)鍵問題。
部分資料參考:
醫(yī)健網(wǎng):《谷歌?AI用聲音數(shù)據(jù)預(yù)測健康風(fēng)險,讓聲音成為健康監(jiān)測新工具》,生物世界:《谷歌最新論文:用AI通過咳嗽聲來診斷疾病》,vb動脈網(wǎng):《谷歌大模型下場,F(xiàn)DA完成首批,這個AI賽道起飛在即》,DeepTech深科技:《AI軟件通過患者咳嗽聲識別結(jié)核病,已通過3.3萬次自發(fā)咳嗽檢驗》,21dB聲學(xué)人:《聲學(xué)研究新進(jìn)展:AI創(chuàng)造聲學(xué)超材料》