#物聯網IoT #人機介面HMI #人工智慧AI #語音交互 #智慧音箱 #人工神經網路ANN #深度神經網路DNN #深度置信網路DBN #遞歸神經網路RNN #卷積神經網路CNN
【語音辨識的沿革】
一直以來,通過語言與機器直接溝通,是很多技術人員追求的目標,可看似簡單的語音交互,卻經歷了長達半個多世紀的技術探索。這期間不管文學還是影視作品,都一次次描繪了人機語音交互的美好場景。但直到 21 世紀初,人與機器的語音交互仍然是令人抓狂的一種操作,遠遠沒有鍵盤和滑鼠來得方便。
在 1952 年,貝爾實驗室研發出了 10 個孤立數位語音的識別系統,為人類的語音辨識開啟了篇章;20 世紀 80 年代開始,以「隱藏式馬可夫模型」(hidden Markov model, HMM) 方法為代表的基於統計模型方法逐漸在語音辨識研究佔據主導地位,能很好地描述語音訊號短時平穩特性,將聲學、語言學、句法等知識集成到統一框架中。此後,HMM 的研究和應用逐漸成為了主流。
李開復在 HMM 模型的基礎上研發出 SPHINX 系統,這是技術人員首次嘗試「非特定人連續語音辨識系統」,其核心框架就是 GMM-HMM 框架,其中 GMM 是指 (Gaussian mixture model,高斯混合模型) 用來對語音的觀察概率進行建模,HMM 則對語音的時序進行建模。同時期發展出的技術,還有 20 世紀 80 年代後期人工神經網路 (ANN) 也成為語音辨識的一個方向。
直至 ANN 後來進化為深度神經網路 (DNN),語音辨識技術才有了本質的突破。到了 20 世紀 90 年代,隨著電腦技術的快速發展,包括個人電腦在內的一大批設備開始嘗試使用語音辨識技術。這一時期劍橋發佈的 HTK 開源工具包大幅降低了語音辨識研究的門檻。然而在接下來的一段時間,GMM-HMM 框架的技術局限性使得其應用效果差強人意。
在語音辨識技術方向中,具有更強的長時建模能力的遞歸神經網路 (又稱:迴圈神經網路,RNN)、卷積神經網路 (CNN),以及在語音辨識領域獨樹一幟的科大訊飛公司提出的 DFCNN 技術相繼出現,進而使得人機語音交互的體驗越來越好,以智慧音箱為代表的語音交互設備受到越來越多的消費者歡迎,比傳統 GMM-HMM 框架性能提升 30~60%,並與 Google 在語音辨識展開深度合作。
延伸閱讀:
《艱難中前行的語音交互技術》
http://www.compotechasia.com/a/feature/2019/0111/40859.html…
(點擊內文標題即可閱讀全文)
#科大訊飛Iflytek #DFCNN
「cnn語音辨識」的推薦目錄:
- 關於cnn語音辨識 在 COMPOTECHAsia電子與電腦 - 陸克文化 Facebook 的最佳解答
- 關於cnn語音辨識 在 國研院科政中心 Facebook 的最讚貼文
- 關於cnn語音辨識 在 吉娜英文 Facebook 的最佳解答
- 關於cnn語音辨識 在 數位語音處理概論Final Project Report 1. 專題動機及簡介 的評價
- 關於cnn語音辨識 在 A.I 人工智慧- 語音識別- Speech Recognition - 課程08 - YouTube 的評價
- 關於cnn語音辨識 在 chinese-speech-recognition · GitHub Topics 的評價
- 關於cnn語音辨識 在 網路上關於CNN 文字辨識-在PTT/MOBILE01/Dcard上的升學 ... 的評價
- 關於cnn語音辨識 在 網路上關於CNN 文字辨識-在PTT/MOBILE01/Dcard上的升學 ... 的評價
- 關於cnn語音辨識 在 網路上關於CNN 文字辨識-在PTT/MOBILE01/Dcard上的升學 ... 的評價
- 關於cnn語音辨識 在 語音情緒辨識python :: 全台大學開課課程資訊網 的評價
- 關於cnn語音辨識 在 語音辨識python的推薦,DCARD、PTT和網路上有這些評價 的評價
- 關於cnn語音辨識 在 語音辨識python的推薦,DCARD、PTT和網路上有這些評價 的評價
- 關於cnn語音辨識 在 Live Learning Pro 實戰英語學習網來囉! 的評價
cnn語音辨識 在 國研院科政中心 Facebook 的最讚貼文
#導入語料庫訓練說方言也難不倒
🔺英語語系🔺
2016年10月,微軟運用卷積神經網路(CNN)及長短時記憶模型(LSTM)訓練的語音識別系統,在標準口語資料庫Switchboard上測試的詞錯率(WER)已降至5.9%,樹立機器語音辨識準確率超越人類專業速記員的里程碑;在自然語言理解方面,2018年1月初,在業內被譽為機器閱讀理解界的頂級賽事,由史丹福大學發起的SQuAD機器閱讀理解挑戰賽上,微軟亞洲研究院開發的r-net+模型及阿里巴巴iDST開發的SLQA+模型前後刷新紀錄,其模型在閱讀理解文章後,可完全正確或部分正確回答問題的評分超越人類能夠達到的水準,不僅是自然語言處理領域的一大進展,結合AI語音技術亦能進一步開拓智慧客服、教育領域、新聞媒體及搜尋引擎等領域之應用,但值得注意的是這兩項標準測試都是採用標準文本或在無干擾的單純環境下進行,在真實情境下的運用還需要演算法、數據和模型上的創新與精進。
🔺中文語系🔺
百度發表的深度語音識別系統 Deep Speech 2對中文語音的識別準確率可達到97%,音訊轉寫的速度較人工速記快1.67倍,MIT科技評論遴選其為2016年十大突破技術之一,轉寫逐字稿可為人類省下四成工時。科大訊飛在MIT於2017年發表「全球最聰明的50家企業」中名列全球第6,其以眾包方式採集22種方言的語料庫,運用大量的卷積層對語音信號進行模型建構,訊飛輸入法可識別包括粵語、湖南語、客家語…等多種方言口音。
全文網址:https://goo.gl/CmJnA8
cnn語音辨識 在 吉娜英文 Facebook 的最佳解答
大家工作學習愉快!
今天跟大家談談發音,怎樣的發音是標準?能夠說一口道地的美語嗎?語言的標準非常難以界定,一般而言,電視廣播人員的「發音」被視為當地的「標準」。話說回來,我們最熟悉的CNN有線電視新聞網,一些主播的口音可是帶著自己母語的英文。美國是一個文化大熔爐,這一點都不奇怪!如果同樣的場景換做是台灣,可能有人會說「憑什麼」,發音這麼「不標準」也能當主播!文化性格非常不一樣,因為台灣真的很小!
所以,標準因人而易!台灣的美語教材,我個人認為已經非常棒,因為來台灣的美國老師都是受過大學教育,或許稍微有一點腔調的問題,但整體而言是很不錯的。至於有人說,卡車司機來台灣教英語,我想這只是少數例外。教材與老師的發音問題不大,那問題在哪裡?
想想我們說的國語,有人發音清晰、口齒伶俐,有人說話模糊不清,只是大概相似標準發音。但不論個人的發音如何,可以確定的是,只要在語音辨識的範圍之內,我們是可以瞭解對方說的話。同樣,美國人在自己的國家說話,也是會有這樣的情況。以學習發音的角度來看,一個人是否能夠學習好發音,會很有多複雜的因素,個人的意願,耳朵聽力的敏感度,嘴巴模仿的能力等等。所以,我想說,語言最根本的功能是「溝通」,重點是溝通,而不是應該如何發標準音。 不要因為沒有標準發音而不敢開口,我敢說,大部分的英語老師說的美語都是「帶著國語的美語」,真正能夠說一口流暢且發音道地的英文,真的要非常有易於他人的語言天分。(我指的是在台灣出生成長的英文老師)
學習英文,一步一腳印!背單字時,把每個單字發音搞清楚,多唸幾遍,發音真的是很簡單。每一個英文單字似乎跟我們人一樣,也會有獨特性,不要一篇蓋全,會減少很多學習上的困難!
cnn語音辨識 在 A.I 人工智慧- 語音識別- Speech Recognition - 課程08 - YouTube 的推薦與評價

A.I 人工智慧- 語音 識別- Speech Recognition - 課程08 - Speech-Emotion-Analyzer 語音 情感識別– CNN. 2018 Mike. ... <看更多>
cnn語音辨識 在 chinese-speech-recognition · GitHub Topics 的推薦與評價
Automatic Speech Recognition(ASR), Text-To-Speech(TTS) engine for Chinese. 中文语音识别、文字转语音,基于语音库实现,易扩展。 tts speech-recognition parrot ... ... <看更多>
cnn語音辨識 在 數位語音處理概論Final Project Report 1. 專題動機及簡介 的推薦與評價
在模型的選擇上,由於我一直對圖像辨識很感有興趣,而且教授也常常在上. 課時提到結合深度學習的語音辨識是目前主流的做法。因此就決定用Ch9 所提. 及的:使用CNN 作圖 ... ... <看更多>