靈云語音識別技術升級,助推行業(yè)高效發(fā)展
近日,北京捷通華聲科技股份有限公司正式發(fā)布靈云語音識別 V10.2 版本。本次升級以自研大模型為核心引擎,對聲學模型、語言模型、端到端解碼與抗噪處理進行全鏈路重構,在識別準確率、復雜場景魯棒性、響應速度與行業(yè)適配能力上實現跨越式提升,為智能客服、政務辦公、金融系統(tǒng)、公檢法筆錄、會議轉寫等場景提供更穩(wěn)定、更精準、更自然的語音 AI 能力。

捷通華聲是國內最早從事智能語音語義研究與應用的企業(yè)之一,專精特新“小巨人”企業(yè);自主知識產權的靈云語音識別技術,歷經20余年地精心打磨,依托捷通華聲完善的產學研合體系,深厚的行業(yè)案例積累,近期通過大語音模型升級語音識別技術,各方面表現始終保持行業(yè)領先。
靈云語音識別V10.2依托捷通華聲多年語音技術積累與大模型訓練工程化能力,將大模型的語義理解、上下文關聯、泛化糾錯能力深度融入 ASR 全流程。新版本采用大小模型協(xié)同推理架構:小模型負責低時延前端處理與實時解碼,大模型負責語言建模、歧義消解與長文本語義校準,兼顧速度與精度。
相較于傳統(tǒng)深度學習架構,新版本在口語化表達、方言口音、專業(yè)術語、多人混講等難點場景實現顯著突破,有效降低同音錯誤、斷句錯誤與漏識別率,讓語音轉寫更貼近人類真實理解邏輯。
1.識別精度再攀新高,主流場景準確率領先 在標準普通話、清晰拾音環(huán)境下,識別準確率穩(wěn)定保持行業(yè)第一梯隊;針對金融、法律、醫(yī)療、政務等垂直領域,內置行業(yè)專屬語言模型,專業(yè)術語識別準確率大幅提升,滿足高規(guī)范、高嚴謹度業(yè)務需求。
2.強抗噪與遠場適配,復雜環(huán)境穩(wěn)定可用 融合升級麥克風陣列算法、自適應降噪、回聲消除與去混響技術,新版本可有效抑制空調風噪、街道噪音、會議室混響、多人背景聲等干擾,支持遠距離拾音與高噪音場景穩(wěn)定轉寫,在車載、公共服務、工業(yè)、智能家居等場景表現更可靠。
3.超低時延與高并發(fā),實時交互更流暢,首包響應更快,同時做到流式支持,邊說邊轉更跟手;底層分布式架構支持高并發(fā)、高可用部署,滿足大規(guī)模呼叫中心、政務熱線、云會議等海量請求場景,7×24 小時穩(wěn)定運行。
4.多語種與多方言覆蓋,全場景兼容持續(xù)擴充普通話、英語、日語、韓語等多語種及多方言,支持中英混合識別,適配跨境辦公、海外業(yè)務、多民族地區(qū)服務等需求,覆蓋更廣泛用戶群體。
靈云語音識別以云API、私有化部署、SDK組件、一體機等多樣化形態(tài)交付,支持aarch64國產芯片,支持海光、昇騰國產化加速卡,快速適配企業(yè)現有系統(tǒng)與業(yè)務流程:
智能客服與外呼:轉寫更準、意圖更清,提升質檢效率與客戶滿意度;
政務、公檢法筆錄:實時轉寫、規(guī)范成文,縮短辦案與辦事流程;
會議辦公轉寫:多人講話自動區(qū)分,快速出紀要;
智能車載:遠場抗噪,語音控制更靈敏。
作為國內人工智能語音技術先行者,捷通華聲二十余年專注靈云全棧 AI 能力研發(fā)與產業(yè)化落地。本次語音識別升級,是公司大模型+語音技術路線的重要里程碑,標志著從 “語音轉文字” 向 “語音理解與語義可信” 升級。
未來,捷通華聲將持續(xù)深耕語音等多模態(tài)AI技術融合,推出更貼合行業(yè)需求的產品與解決方案,以穩(wěn)定、安全、可控的自研 AI 技術,助力企業(yè)數字化轉型,讓智能語音更懂用戶、更賦價值。

