加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

聲紋識(shí)別與語音喚醒,這個(gè)挑戰(zhàn)賽代表了語音技術(shù)的發(fā)展趨勢(shì)!

2021/01/30
590
閱讀需 4 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

1 月 24 日,由昆山杜克大學(xué)、聯(lián)想研究院和北京郵電大學(xué),在 2021 中文口語語言處理國際會(huì)議(ISCSLP 2021)上發(fā)起的個(gè)性化喚醒語音挑戰(zhàn)賽圓滿結(jié)束,并通過 B 站和 Zoom 線上進(jìn)行了收官研討會(huì)。

挑戰(zhàn)賽吸引了來自知名高校、研究機(jī)構(gòu)、企業(yè)人工智能部門以及初創(chuàng)企業(yè)的幾十支團(tuán)隊(duì)參加,包括北京大學(xué)、西北工業(yè)大學(xué)、廈門大學(xué)、小米、出門問問、普強(qiáng)、實(shí)地地產(chǎn)和杭州國芯等。最終,在比賽的兩個(gè)任務(wù)中,即近場單通道語音個(gè)性化喚醒任務(wù),和遠(yuǎn)場多通道語音個(gè)性化喚醒任務(wù)中,小米、西工大、出門問問和實(shí)地地產(chǎn)獲得了前三名的佳績。

標(biāo)志著本次挑戰(zhàn)賽收官的線上研討會(huì)由昆山杜克李明教授主持,聯(lián)想集團(tuán)副總裁、聯(lián)想研究院人工智能實(shí)驗(yàn)室負(fù)責(zé)人范建平博士開場致辭,聯(lián)想研究院語音團(tuán)隊(duì)總監(jiān)汪俊杰和北京郵電大學(xué)葛鳳培教授在會(huì)上宣布了獲獎(jiǎng)團(tuán)隊(duì)并為其頒獎(jiǎng)。此外,研討會(huì)還邀請(qǐng)了 ISCSLP 技術(shù)委員會(huì)主席、香港理工大學(xué)麥文偉教授進(jìn)行了技術(shù)分享。

挑戰(zhàn)賽充分考慮應(yīng)用場景,綜合考察語音喚醒和聲紋識(shí)別的聯(lián)合性能,提供包含數(shù)百人復(fù)雜場景下實(shí)際采集的語音數(shù)據(jù)集,是一套包含近場和遠(yuǎn)場、多通道多設(shè)備、喚醒詞和自由文本相結(jié)合的復(fù)雜數(shù)據(jù)集,可支持復(fù)雜場景語音喚醒、聲紋識(shí)別和語音識(shí)別技術(shù)的研究。

本次賽事中,個(gè)性化語音喚醒考察的是帶有聲紋認(rèn)證功能的語音喚醒技術(shù),喚醒詞是“小樂小樂”,每個(gè)目標(biāo)人有 3 句語音作為注冊(cè)樣本,只有目標(biāo)人的講話內(nèi)容是“小樂小樂”時(shí)設(shè)備喚醒才算正確,目標(biāo)人所講的其他內(nèi)容、非目標(biāo)人講的“小樂小樂”均不能喚醒設(shè)備。比賽設(shè)置了兩個(gè)賽道,一個(gè)是近場單通道個(gè)性化語音喚醒任務(wù),即聲紋注冊(cè)數(shù)據(jù)和待識(shí)別的測(cè)試數(shù)據(jù)都是由近講設(shè)備采集的單通道語音,另外一個(gè)是遠(yuǎn)場多通道個(gè)性化語音喚醒任務(wù),其中聲紋注冊(cè)數(shù)據(jù)是近講數(shù)據(jù),而測(cè)試數(shù)據(jù)是遠(yuǎn)場設(shè)備采集的多通道語音數(shù)據(jù),體現(xiàn)了實(shí)際應(yīng)用場景中跨信道、復(fù)雜聲學(xué)環(huán)境等因素的影響,是智能家居、會(huì)議場景所面臨的典型問題。

在比賽中,有的參賽團(tuán)隊(duì)使用了較為傳統(tǒng)的喚醒模塊和聲紋模塊兩級(jí)串聯(lián)架構(gòu),而有的參賽者采用了多任務(wù)學(xué)習(xí)和聯(lián)合訓(xùn)練的架構(gòu),涵蓋了當(dāng)前業(yè)界主流和先進(jìn)的技術(shù)路線。

所采用的性能評(píng)價(jià)指標(biāo)是檢測(cè)代價(jià)得分(DCF,Detection Cost Function),考慮錯(cuò)誤拒絕(FR, False Rejection)和錯(cuò)誤接受(FA, False Acceptance)兩類錯(cuò)誤的不同代價(jià),得分越小代表系統(tǒng)性能越好。

帶有身份認(rèn)證的語音喚醒技術(shù)是語音技術(shù)發(fā)展的重要領(lǐng)域之一,也是智能物聯(lián)網(wǎng)安全發(fā)展的重要驅(qū)動(dòng)力。

聯(lián)想集團(tuán)副總裁、聯(lián)想研究院人工智能實(shí)驗(yàn)室負(fù)責(zé)人范建平博士在線上討論會(huì)上表示:“聯(lián)想作為智能化變革的引領(lǐng)者和賦能者,一直致力于推動(dòng)人工智能核心技術(shù)和應(yīng)用的發(fā)展。通過舉辦此次活動(dòng),希望能夠加速個(gè)性化語音喚醒技術(shù)的進(jìn)步和落地應(yīng)用,推動(dòng)建立行業(yè)基準(zhǔn),促進(jìn)產(chǎn)學(xué)研進(jìn)一步的合作和發(fā)展。”

相關(guān)推薦

電子產(chǎn)業(yè)圖譜