• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 業界動態 > 谷歌開源AI能區分聲音 準確率達92%

    谷歌開源AI能區分聲音 準確率達92%

    作者: 時間:2018-11-29 來源:網易智能 收藏

      據VentureBeat報道,在語音嘈雜的環境中,要想分辨出有幾個人講話、在什么時間講話,對于機器來說非常困難。但人工智能()研究部門在語音識別方面取得了新進展,能以92%的準確率識別出每個人聲音的專屬模式。

      研究部門在最新名為《FullySupervisedSpeakerDiarization》的論文和相關博客文章中,研究人員描述了一種新的系統,它“能以一種更有效的方式識別聲音”。

      這套系統涉及到Speakerdiarization任務,即需要標注出“誰”從“什么時候”到“什么時候”在說話,將語音樣本分割成獨特的、同構片段的過程。強大的AI系統必須能夠將新的演講者發音與它以前從未遇到過的語音片段關聯起來。

      這篇論文的作者聲稱,核心算法已經可在Github上的開源軟件中可用,它實現了一個在線二值化錯誤率(DER),在NISTSRE2000CALLHOME基準上是7.6%,這對于實時應用來說已經足夠低了,而之前使用的方法DER為8.8%。

      谷歌研究人員的新方法是通過遞歸神經網絡(RNN)模擬演講者的嵌入(如詞匯和短語的數學表示),遞歸神經網絡是一種機器學習模型,它可以利用內部狀態來處理輸入序列。每個演講者都從自己的RNN實例開始,該實例不斷更新給定新嵌入的RNN狀態,使系統能夠學習發言者共享的高級知識。

      研究人員在論文中寫道:“由于該系統的所有組件都可以在監督環境下學習,所以在有高質量時間標記演講者標簽訓練數據的情況下,它比無監督系統更受青睞。我們的系統受到全面監督,能夠從帶有時間戳的演講者標簽例子中學習。”

      在未來的工作中,研究團隊計劃改進模型,使其能夠集成上下文信息來執行脫機解碼,他們希望這將進一步減少DER。研究人員還希望能夠直接對聲學特征進行建模,這樣整個Speakerdiarization系統就可以進行端到端訓練。


    關鍵詞: 谷歌 AI

    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 河津市| 随州市| 醴陵市| 武城县| 万安县| 灯塔市| 绥滨县| 独山县| 诸城市| 正镶白旗| 津市市| 丰都县| 浦东新区| 龙海市| 广德县| 青阳县| 大石桥市| 彰武县| 博客| 景德镇市| 凭祥市| 绩溪县| 渭源县| 浦城县| 泽库县| 固阳县| 东宁县| 平邑县| 遵化市| 游戏| 桂阳县| 固镇县| 新邵县| 普宁市| 巴青县| 郧西县| 磐石市| 海林市| 江门市| 子长县| 营口市|