計劃簡介

【跨域協作】以數據為引,重塑公益服務框架
在全球 AI 技術快速發展的時代,語言模型(LLM)已成為驅動科技應用的核心。然而目前主流模型大多以英文或簡體中文為訓練基礎,台灣的通用語言──包含台灣華語、台灣台語、台灣客語與台灣原住民族語──在資料量與辨識度上嚴重不足,導致我們的語言、文化與價值觀在數位世界中逐漸被邊緣化。

【Taiwan Tongues 計畫緣起】
Taiwan Tongues 是由 IMA(中華民國資訊經理人協會)於 2023 年底發起的 AI 語料共享計畫,致力於打造涵蓋台灣華語、台語、客語、原住民族語等台灣通用的開放語料庫。不只是要讓台灣自己訓練的語言模型,更希望讓全球的開源大型語言模型也能真正學會台灣的語言、文化與價值觀。

【從創作者出發的語料行動】
目前國際主流 LLM(大型語言模型)多仰賴簡體中文語料訓練,台灣語言在其中幾乎缺席。當務之急,是擴大我們自己的語料庫,讓台灣的聲音被全球 AI 所理解。 2024 年,由吳三連獎得主、台語文學作家同時也是 IMA 委員的胡長松帶頭無償釋出 150 萬字文學作品,IMA 號召更多創作者共襄盛舉,目前已有超過數十位作者提供作品授權,累計達 500 萬字的高品質語料。資料已陸續上架 Hugging Face 平台,開放各界使用。

【跨語種資料庫的願景與應用】
計畫核心目標為打造一個開放、跨語種、可供 AI模型訓練與研究使用的語料庫。目前語料已涵蓋多位作家的台灣台語小說、詩歌與論文文本,並將持續拓展至台灣華語、台灣客語、原住民語與新住民語言。所有語料皆經過標註與格式轉換,並統一上架至 Hugging Face 平台,開放非商業使用申請,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用場景。

【語言主權的實踐】
Taiwan Tongues 不僅是一個資料庫,更是一場關於「語言主權」的社會行動。我們相信,唯有擁有自己的語料,台灣的聲音才能被全球語言模型所理解,也才能在數位時代維繫文化主體性與國際對話能力。這是從文本出發,回應文化消失危機的務實工程。 本計畫適用對象廣泛,包括 AI 工程師、教育機構、語言學者、文化工作者與政策制定者等。無論你是在尋找語料訓練模型、設計教材、進行語言研究或推動文化創新,Taiwan Tongues 都期待成為你信賴的語言資料夥伴。