itri tts@ web logo

語音對話

特色簡介

語音是人與人之間最自然的溝通方式,透過語音人們無須借助額外的工具便可以彼此交換各種資訊。雖然我們從眼睛接收到的刺激,比從耳朵所接收到的要來的多,但是不可否認的,要與他人進行溝通,使用語音絕對比只用眼睛更有效率。

自然語言的處理對電腦來說是非常困難的,對人類來說,語言的理解是「自然而然」的,但要讓電腦完全理解我們所說的每一句話的意思,到目前為止仍是不容易做到的事。因此目前的對話系統仍是針對某種特定的應用領域來開發,而在使用者語音的理解上,可以設計在一個固定的應用範圍內。對於超出此系統應用範圍的文句,系統可以用「無法理解的訊息」來回應使用者。

口語對話系統

口語對話系統(Spoken Dialogue System)是以口語對話的方式來和機器溝通的技術,該系統主要能提供使用者和電腦系統之間一個互動的介面,以及和使用者之間互動的方法,透過系統我們可以跟電腦進行交談,使電腦理解我們說的話,或是命令電腦去做一些我們想要它去執行的工作。要使機器能像人一樣對答,必須包含以下的模組:語音辨認模組(Speech Recognition)、語言理解模組(Language Understanding)、交談管理模組(Dialogue Management)、語言生成模組(Language Generation)、語音合成模組(Speech Synthesis) ,口語對話系統架構如下圖所示:

weblink botton

使用者輸入的語音訊號(Speech),由語音辨認模組(Speech Recognition)轉換成文字(Text),語言理解模組(Language Understanding)藉由語法及語意分析,將文字轉換成代表意念的的語意框架(Semantic Frame),交談管理模組(Dialogue Mangement)依據這些語意框架來決定交談流程,產生系統回應的語意框架,再傳至語言生成模組(Language Generation)生成文字語句(Text),最後再由語音合成模組(Speech Synthesis)將生成的語句轉成語音回答使用者(Speech)。

簡單而言,語音辨識賦予機器“聽”的能力;文字轉語音賦予機器“說”的能力;自然語言理解賦予機器“懂”的能力;語音對話系統賦予機器“交談”的能力。

口語對話系統提供人們使用語音與電腦進行互動,像是使用口語對機器進行天氣的查詢、股票查詢或是交通狀況等等,提供使用者即時所需的資訊。

成果應用

電話請假
自動總機系統

weblink botton

互動展示

電話請假(一)展示影片

電話請假(二)展示影片