【十萬個為什麼】語音識別中的雞尾酒問題






  萬物互聯時代,智能語音作為最自然的交互工具,能被運用到哪些場景呢?《十萬個為什麼》節目邀請到雲知聲創新事業部總裁陳吉勝,講述語音識別技術的應用。

語音識別「雞尾酒問題」

所謂雞尾酒問題是指人的一種聽力選擇能力,在這種情況下,注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。具體來說,雞尾酒問題的任務就是在高度重疊的音頻中將不同說話者的內容分離和識別出來。

語音識別可以應用在哪些場景?

說話是人類最自然的交流方式,我們可以說人工智能是偽智能,機器永遠不會像人一樣去活著,但機器可以變得越來越善解人意。

提起語音識別,我們最容易想到的可能是不會講笑話的 Siri。但在醫療領域語音識別簡單的通過智能手表追蹤運動情況和心率;在智能車載方面可以幫用戶做到語音控制 GPS 導航,信息收發,電話接打,社交網路更新等等;在教育領域,可以讓數據庫提供一個標準,可以為口語評測提供一種更加簡便高效的方式去學習一門語言。

【十萬個為什麼】語音識別中的雞尾酒問題

國內外語音識別行業現狀

任何時候提到語音識別,都不能避過Nuance這家公司,這家公司曾經在語音領域一統江湖,但事實上Nuance有點過於自大了,語音技術即便冠絕全球,但也在走沒落的地步。

這個領域當然少不了大名鼎鼎的Google,但是Google動作稍微遲緩,2011年Google才出手收購語音通信公司Say Now和語音合成公司Phonetic Arts。而Phonetic Arts可以把錄制的語音對話轉化成語音庫,然後把這些聲音結合到一起,從而生成聽上去非常逼真的人聲對話。

科大訊飛是目前國內最有影響力的語音技術公司,成立於1999年底,依靠中科大的語音處理技術以及國家的大力扶持,很快就走上了正軌。

【十萬個為什麼】語音識別中的雞尾酒問題

語音識別中的晶片

語音識別晶片最大的特點就是能夠語音識別,它能讓機器聽懂人類的語音,並且可以根據命令執行各種動作,如眨眼睛、動嘴巴(智能娃娃)。除此之外,語音識別晶片還具有高品質、高壓縮率錄音放音功能,可做到人機對話。語音識別晶片所涉及的技術包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。

【十萬個為什麼】語音識別中的雞尾酒問題

【十萬個為什麼】語音識別中的雞尾酒問題

【十萬個為什麼】語音識別中的雞尾酒問題

【十萬個為什麼】語音識別中的雞尾酒問題

【十萬個為什麼】語音識別中的雞尾酒問題

拓展閱讀

【十萬個為什麼】語音識別中的雞尾酒問題

【十萬個為什麼】語音識別中的雞尾酒問題

語音識別的發展史

【十萬個為什麼】語音識別中的雞尾酒問題

1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統。

1960年英國的Denes等人研究成功了第一個計算機語言識別系統。

大規模的語音識別研究是在進入了70年代以後,在小詞匯量、孤立詞的識別方面取得了實質性的進展。

進入80年代以後,研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。此外,再次提出了將神經網路技術引入語音識別問題的技術思路。

進入90年代以後,在語音識別的系統框架方面並沒有什麼重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。

到了80年代,美國國防部遠景研究計劃局又資助了一項為期10年的DARPA戰略計劃,其中包括噪聲下的語音識別和會話(口語)識別系統,識別任務設定為「(1000單詞)連續語音數據庫管理」。

到了90年代,這一DARPA計劃仍在持續進行中。其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為「航空旅行信息檢索」。

1987年起,日本又擬出新的國家項目—高級人機口語接口和自動電話翻譯系統。

【十萬個為什麼】語音識別中的雞尾酒問題

【十萬個為什麼】語音識別中的雞尾酒問題

編輯:靚靚 實習生:丁思文

監制:袁林輝、龍敏

本文來自:上海新聞廣播

微信號:shnews990

上海新聞廣播FM93.4/AM990

《十萬個為什麼》

首播:周一到周日18:30 — 19:00

重播:周一到周日21:30 — 22:00

【十萬個為什麼】語音識別中的雞尾酒問題

探索科學,發現真知

從這里開始!