itri tts@ web logo

文字轉語音系統

文字轉語音合成技術(Text-To-Speech, TTS)乃是透過電腦處理,將任意文字輸入轉換成語音輸出。使用者不需要針對特定文字內容預錄語音,只要將文字內容輸入電腦,電腦即會自動處理包括日期、時間、電話、金額、項次等數字之正確讀法,以及處理常見特殊符號、英文縮寫等之正確讀法。然後採用具有中文斷詞容錯能力之強健式韻律合成,生成音質清晰無衰減以及具有抑揚頓挫之韻律變化的合成語音,提供近似真人的發音。

語音合成技術應用的範圍非常廣泛,例如:導航機、行動有聲書、公車到站站名播報、智慧型玩具、智慧型家電、中文朗讀機、電子郵件電話隨聽系統、人機口語交談系統、網路有聲導覽、電腦電話整合(CTI)、語音入口網站(Voice Portal)、數位助理(PDA)、語言教學軟體、身心障礙輔助等應用。

在此系統下有三大技術應用成果,陳列如下:

高音質中文文字轉語音系統

特色包含:高品質自然語音合成、智慧文本分析、多音色風格語音的選擇與建構和韻律強化及特效合成。(詳全文…

影像式人臉動畫合成系統

是一種結合影像與語音的一種合成技術,可以針對發音的不同,給予其最自然發音的嘴型,提供使用者一個更真實的體驗。(詳全文…

ITRI TTS@Web

提供一個線上服務,讓使用者能夠透過幾個簡單的步驟,既可使用享受到TTS (Text to Speech)所帶來的附加價值與服務,本服務提供在線即時轉換,不需要安裝TTS轉換程式。(詳全文…

TTS知識補充包


為何需要語音輸出?
  • 眼睛不便 - 開車中之駕駛、搭車晃動之乘客、邊工作邊聽
  • 視力不佳 - 視障者、老年視力衰退、幼兒視力成長階段
  • 顯示受限 - 螢幕太小/無螢幕之設備、公共場所廣播
  • 聽力訓練 - 學習外語、聽障矯治
  • 文字障礙 - 學前兒童、文盲、只會聽不會讀之外國人
  • 多模輸出 - 語音配合其他輸出模式以增進效果─如遊戲、玩具、資訊查詢
為何需要TTS語音輸出?
  • 即時性、變動性內容之錄音 - 難以有全年無休、全天候之錄音人員可隨時錄音
  • 音色特質與錄音品質一致性的維持 - 真人較難
  • 可快速製作大量數位語音資訊 - 真人錄音成本高而耗時
  • 資訊傳輸便捷 - 錄音之儲存與傳輸,與文字相比之下較為不便
  • 可發展較多功能的系統 - 以TTS自動將文字轉換成語音輸出,可更靈活彈性的設計各種數位內容的多媒體服務,滿足各種使用者在各種情境下的語音輸出需求