智能語音識別系統

智能語音識別技術作為現代會議系統的發展新方向,賦予會議產品更智能的人機交互體驗。在傳統會議召開過程中,會議的70%信息都依賴於視覺接收,只有30%信息依賴於聲音接收,僅通過聲音和視頻去進行會議交流,遠不能滿足現代會議的要求。同時用戶會後的文件處理、會議紀要及特定用戶的法定程序也要求必須以文字的形式呈現。内蒙快3智能語音識別系統可實現每個座席的發言語音進行實時、完整、有序的文字轉寫,並確保文字與各座席的語音一一對應,轉寫的文字可實時顯示在會場內的大屏顯示系統和内蒙快3無紙化會議系統屏幕上。

該系統適用於多種應用場景,實現包括會議紀要、培訓記錄、實時演講字幕、訪談錄音轉寫、法庭庭審實時記錄等。


内蒙快3智能語音識別系統,是基於内蒙快3全數字會議技術平臺上開發,通過網絡音頻數據與後臺ASR(自動語音識別Automatic Speech Recognition)進行對接,並在ASR的支持下,配合内蒙快3應用軟件,實現實時的語音轉寫為文字。

GONSIN後臺ASR具有本地服務器局域網部署及雲平臺服務兩種模式供選擇,滿足不同場合的應用需求。兩種模式均需使用内蒙快3智能會議管理軟件-語音識別模塊。


語言識別模塊 V7.1.0(ASR)是會議管理軟件V7.1.0的語音轉寫功能模塊,實現語音轉文字功能。會前匹配好與會人員的發言終端,並設置角色,會中語言識別模塊即可實時識別各發言終端的語音流,同步生成各角色獨立的文件記錄及錄音文件,並在操作電腦界面及大屏顯示界面中呈現。同時可根據設定的模板保存成文件+聲音的會議紀要文件。

基本功能
■ 各個角色的語音實時識別,生成單獨的錄音文件;
■ 各個角色的語音實時識別並轉寫為文字,生成單獨的文字記錄文件;
? 搭配GONSIN 20000S或領導者系列話筒使用,可支持多個話筒同時開啟發言,各個話筒的語音可實時並行識別,生成單獨的錄
音文件並轉寫為文字(語音轉寫模塊的授權數量需與同時開啟話筒的數量匹配);
? 搭配GONSIN Z4系列話筒使用,可支持1個話筒開啟發言,話筒的語音可實時識別,生成單獨的錄音文件並轉寫為文字;
■ 可合並各角色的文字記錄及錄音,合並生成會議紀要,並支持文本導出;
■ 智能化語義識別,並根據語義智能斷句;
■ 錄音語音與文字記錄可同步回放並對照顯示,實現智能文檔修正;
? 支持關鍵字檢索功能,能快速定位相應內容的位置,大大提高了內容檢索的效率;
■ 支持主屏、分屏顯示,轉寫文字實時顯示在操作電腦主屏,並投放到大屏顯示系統,支持屏幕分辨率自適應;
? 配合GONSIN無紙化系統,轉寫文字可實時在無紙化終端上顯示;
? 會議系統管理及設置(設備搜索、終端編號、終端拾音靈敏度調節等);
? 會議信息編輯及管理(會議內容編輯、人員信息設置、發言終端角色設置等);
? 可兼容内蒙快3會議系統的不同產品形態的設備使用;
? 支持屏幕定制,可視化編輯界面的文字字體、顏色、圖片、數據關聯等進行設置。支持多種界面風格快速切換;
? 軟件支持二次開發,根據項目需求可開放接口協議實現定制化開發。

技術參數

內嵌ASR智能語音識別引擎V3.0以及語音轉寫模塊授權V1.0


基本功能
■ 安裝ASR智能語音識別引擎V3.0軟件;
■ 業界領先的單遍大規模語言模型解碼技術;
? 標準引擎支持普通話及普通話體系的方言及口音識別;
? 可定制維吾爾語少數民族語言識別引擎;
? 可定制四川話、粵語、上海話、湖北話、湖南話、河南話、浙江話、天津話雲南話等部分地方方言識別引擎
? 可定制英語、俄語、泰語識別引擎;
? 可定制金融、政法、醫療、教育等用行業識別引擎;
■ 高效率CTC模型,通過選配授權,最大支持50路語音並發識別;
■ 支持會議中心多會議室局域網集中部署,滿足多會議室並行語音轉寫;
? 配合GONSIN管理系統,可實現各角色分離識別。
? 支持在會議中心集群部署或本地會議室部署。

技術參數

基本功能
■ 業界領先的單遍大規模語言模型解碼技術;
? 標準引擎支持普通話及普通話體系的方言及口音識別;
? 可定制維吾爾語少數民族語言識別引擎;
? 可定制四川話、粵語、上海話、湖北話、湖南話、河南話、浙江話、天津話雲南話等部分地方方言識別引擎
? 可定制英語、俄語、泰語識別引擎;
? 可定制金融、政法、醫療、教育等用行業識別引擎;
■ 高效率CTC模型,通過選配授權,最大支持50路語音並發識別;
■ 支持會議中心多會議室局域網集中部署,滿足多會議室並行語音轉寫;
? 配合GONSIN管理系統,可實際各角色分離識別;
? ASR智能語音識別引擎V3.0軟件將安裝在智能語音識別服務器中運行。

ASR會議集群部署方案連接圖