IMA協會推動之Taiwan Tongues Taigi Datasets所建置的台語大型語言模型與完整專案，現已正式公開。本次同步釋出 SARC-Taigi-LLM 12B 與 27B 兩個 Gemma 3 模型版本及訓練程式，並將持續推進 Gemma 4 模型的訓練與開發，逐步強化台語在 AI 時代的應用基礎。

SARC-Taigi-LLM 由 IMA協會與國立陽明交通大學人工智慧語音研發中心（SARC）共同推動，聚焦於展示如何運用 IMA’s Taiwan Tongues Taigi Datasets，結合 Google Gemma 3 模型與多階段訓練流程，實作出台語大型語言模型，作為本土語言語料轉化為 AI 能力的重要實踐。

本次公開內容包括：
• SARC-Taigi-LLM 模型
• GitHub 訓練專案
• 台語大語言模型線上展示系統

相關網址如下：
🔹 IMA’s Taiwan Tongues Taigi Dataset（Taigi Dataset）
🔹 台語大型語言模型線上展示網站（Demonstration Site）
🔹 Hugging Face（Models）
🔹 GitHub（Project Repository）

特別感謝二十多位台文作家慷慨捐獻超過 600 萬字的台文語料，讓台語書寫得以轉化為可被 AI 理解與學習的關鍵資源。這不僅是一項技術成果，更是語言、文化與科技共構的重要里程碑。

我們希望本次模型發表，能作為台語 LLM 的實作範例，持續被延伸與重現。透過開放資料、模型與訓練流程，讓研究者、開發者與教育工作者能在此基礎上持續擴展、再訓練與驗證，共同推動台語 AI、本土語言科技與語言文化的長期發展。

展望未來，SARC-Taigi-LLM 可望應用於：
• 台語問答與對話系統
• 台語詞彙、語意與文化知識查詢
• 台語教學、教材輔助與數位內容生成
• 台語自然語言理解與推理研究

在此，也再次向所有慷慨捐獻台文語料的作家們，致上最誠摯的感謝與敬意。

#SARC #Taigi #台語 #台語LLM #TaiwaneseLLM #本土語言 #語言科技 #AI輔助學習 #Gemma #HuggingFace #GitHub #SpeechAI #NLP #TaiwanTongues #IMATaiwan

2025-10-14----加入 Taiwan Wiki 志工行列：讓 AI 聽懂台灣！

💡加入 Taiwan Wiki 志工行列
讓世界聽見台灣的聲音！

蒐集台灣本土語料的重要性
隨著 AI 科技的快速發展，語言模型的重要性日益凸顯。然而，由於美國與中國在資源與語料上的優勢，當前主流的 AI 模型多以「英文」與「簡體中文」為核心。相較之下，地緣規模較小的台灣，因缺乏足夠的台灣華語（繁體中文）、台語、客語，甚至原住民族語語料，長期在全球數位語料中被忽略。這樣的現象不僅造成語言資料的失衡，也使 AI 難以真正理解台灣人的語氣、用法與文化脈絡，進而讓台灣的語言與文化逐漸被世界邊緣化。

Taiwan Wiki 大修訂運動｜Taiwan Tongues 台灣通用語料庫計畫
Taiwan Wiki 大修訂運動是「Taiwan Tongues 台灣通用語料庫計畫」的重要行動之一。這項計畫旨在推動語言數位平權，讓台灣語言能在全球 AI 生態中被真實呈現與使用。
因此我們非常歡迎自各地的語言志工，共同協助潤飾與修訂台灣在地語言的文字內容。透過集體的語感與生活經驗，讓文字更自然、更貼近真實的日常用語，打造屬於台灣的開放語言資料庫。

你可以怎麼參與？
在 Taiwan Wiki 專案中，我們提供以台灣華語、台語與客語為主的文字內容。志工的任務是檢查語句是否通順自然、語意是否符合台灣在地用法，並根據自身語感進行調整與補充。
#不需任何專業背景，只要你有語感、耐心與熱情，就能參與。
#你的每一個修正，都會讓 AI 更能理解台灣人真實的語言與思考方式。
無論你是語文愛好者、教育工作者、內容創作者，或只是單純想為台灣文化盡一份心力的公民，你的參與，都是這場行動中最重要的力量。讓我們攜手，為台灣語言在全球 AI 時代中發聲。

👉 立即加入 Taiwan Wiki 志工行列，一起用文字改寫未來！
加入行動 :https://reurl.cc/3Mg0LV

2025-08-11----【COSCUP 2025 】Taiwan Tongues 正式啟動大修訂計畫！

Taiwan Tongues 團隊於 COSCUP 2025 主議程，向開源社群分享推動臺灣多語言開源語料庫的進展與應用案例。本次由IMA資訊經理人協會胡長松主委、陽明交通大學廖元甫教授，以及群聯電子Kled經理共同發表，並與現場開源社群進行交流。

建立世界理解臺灣的語言基礎
Taiwan Tongues 計畫以蒐集、整理並開源臺灣多元語言語料為核心，涵蓋臺灣華語、臺語、客語及各原住民族語言。胡長松老師指出，語料是 AI 時代最稀缺的資源，而目前全球 AI 模型多以簡體中文訓練，對臺灣語言與文化的呈現不足，形成潛在風險。該專案目前已累積超過 600 萬字高品質臺語語料，來源包括文學作家長年創作，並計畫透過「Taiwan Wiki 大修訂大計畫」擴充至千萬級 Token 規模，邀請大眾共同修訂、擴展華語、臺語、客語等百科內容，為 AI 建立真實且在地的語境資源。

從語料到應用的技術實踐
廖元甫教授展示了以 600 萬字臺語語料訓練的大語言模型應用原型，能讓使用者以自然描述（華語或臺語）查詢對應的臺語詞彙，並結合辭典與影音資料，協助學習與保存臺語用法。這項技術不僅突破傳統辭典檢索的限制，也為語言復興提供互動化工具。

在地化 AI 訓練方法
群聯電子Kled經理則分享了如何透過 Reward Model 與在地語境訓練方法，讓模型在保持推理能力的同時，回應更符合臺灣文化脈絡的答案。此方法可在消費級 GPU（如 RTX 4090/5090）上運行，降低開發門檻，並推廣至開源創作者與學研單位。

未來展望與社群參與
Taiwan Tongues 團隊強調，計畫的目標不僅是建立龐大的在地語料庫，更要以語料與測試集為核心，結合陽明交通大學廖教授與群聯電子的技術合作，將完整的訓練方法開源，推動全台首個具系統性與組織性的語料建置專案。我們相信，這樣的成果能成為全台 AI 訓練的重要基礎，也期待各領域的 AI 團隊能藉此機會攜手合作，共同擴展台灣語言的數位影響力。

團隊誠摯邀請各界加入「Taiwan Wiki 大修訂計畫」，一起打造完整、多元且高品質的台灣語言資源，讓未來的 AI 真正理解、應用並傳承台灣的語言與文化。

📢 你的參與 = AI 認識台灣的力量加入我們，讓AI 不只會說台灣話，也能懂得台灣語境。

👉 報名連結：https://reurl.cc/x3LW3e

2025-07-04----作家組隊 Team Taiwan；全球 AI 聽台灣

作家組隊 Team Taiwan；全球 AI 聽台灣
Taiwan Tongues 計畫帶動台灣語言大翻身，AI 再也不是外國腔
發稿日期：114年7月4日
生成式 AI 正以前所未有的速度改變全球溝通與知識生產，但當主流 AI 模型多以英文與簡體中文為主要訓練基礎，台灣華語、台語、客語與原住民族語卻在數位語料中嚴重缺席，導致 AI 難以理解台灣語言與文化，形成新一波數位落差與文化邊緣化。

為翻轉此局面，IMA 資訊經理人協會(IMA協會) 發起 Taiwan Tongues 台灣通用語料庫計畫，目標是讓台灣語言不只是被保存，更成為全球 AI 模型學習的核心語料，讓世界真正「聽懂」與「理解」台灣。

IMA 協會理事長蔡祈岩指出: 語言是文化的根基，唯有打造自主、開放、可信的語料體系，台灣才能在全球 AI 發展中不缺席，讓世界不只看見台灣語言，更能理解台灣語言。

計畫核心：三大步驟，打造 AI 的台灣老師

【台灣通用語料蒐集與開源】
Taiwan Tongues 計畫的第一步，即是擴大台灣語料庫(包含台灣華語、台灣台語、台灣客語及原住民語)，讓台灣的聲音被全球 AI 所理解。
2025 年，由吳三連獎得主、台語文學作家同時也是 IMA 委員的胡長松帶頭，無償釋出 150 萬字文學作品，並號召更多創作者共襄盛舉，至今已有數十位作家授權，累計超過 500 萬字高品質語料，並已陸續上架 Hugging Face 平台，開放各界非商業使用，支援語音助理、機器翻譯、語言教學與數位文化推廣等應用，邁向打造跨語種、可供 AI 訓練與研究使用的開放資料庫。

【模型語境訓練框架】
群聯電子是 AI 時代驅動儲存與運算創新的關鍵推手，同時身為 Taiwan Tongues 計畫執行委員會一員，整合 Reward Model 及 RL 微調技術，開發一套具備多元觀點辨識與區域語意調適能力，可作為企業訓練本地化 AI 的訓練框架。透過此訓練框架，可避免單一模型觀點帶來的偏差風險，並加速模型落地應用，推動產業 AI 能力鏈的建立。
【台灣語境評測】
Taiwan Tongues 亦設計專屬測試集，由 IMA 提供語境與語言能力評測標準，並與陽明交通大學廖元甫教授合作，進行模型實證測試。廖教授團隊將 Taiwan Tongues 作家語料結合教育部台語辭典等公用語料庫，對模型進行持續預訓練（CPT）與監督式微調（SFT），結果顯示台語 AI 模型的正確率顯著提昇，顯著提升台語語意理解與書信生成能力，證實語料品質與語境評測對模型表現的關鍵影響。

如果把 AI 當作學生，Taiwan Tongues 提供的不只是課本（語料），更有教案（模型語境訓練框架）與考卷（語境評測），三者結合，才能讓 AI 真正懂台灣。

目前里程碑：從作家到 AI，文化跨界串連

此次記者會集結政府、產業、學界與文學界多方力量，邀請多位重量級作家與文化工作者，包括胡長松、向陽、曾貴海（由曾澤民代表出席）及文訊雜誌社封德屏社長，親自分享釋出語料的初衷。作家們指出，語言是活的文化，必須被學習與應用，才能真正傳承。他們呼籲更多創作者加入語料共享行列，將書頁上的文字轉譯進 AI，讓文化記憶注入時代能動性。

政府支持：主權 AI 與文化自主的戰略實踐

數位發展部林宜敬次長於會中表示，AI 正重塑世界的語言與價值流動，台灣語言在數位世界的能見度面臨嚴峻挑戰，這也是政府推動「主權 AI」的核心意義：不只是技術路線，更是文化自主與民主深化的戰略選擇。林次長並宣布三大合作策略：

政府語料統籌：由數位發展部統籌整合政府機關語料
民間語料整備：由 IMA 推動民間語料授權與整理
深化合作應用深化合作應用：未來強化政府與民間在語料開放、模型建構與應用評測上的合作

未來展望：讓世界不只看見，更能理解台灣語言
Taiwan Tongues 未來將持續募集台灣華語、台語、客語與原住民族語等多語種語料，並與國際大型語言模型平台合作，讓台灣語言成為全球 AI 生態系中不可或缺的一部分。
同時，Taiwan Tongues 並預計開啟 Wiki Taiwan 工作項目，擴增台灣語言在網路世界的能見度。對於台灣華語，將號召有志人士優先補齊維基百科中「只有英文（或其他主流語言）但尚缺繁體中文」的條目，補足語言差集；而針對台語，第一階段則將先直接翻譯目前維基百科約 140 萬筆繁體中文條目為台語內容，第二階段再進行與英文條目的差集翻譯。此舉不僅可快速大幅增加台灣通用語言的數位內容與 AI 訓練語料，也將進一步實現數位平權與語言文化自主。

IMA 協會指出，AI 的發展不僅是科技力的展現，更是文化主體性的實踐。Taiwan Tongues 計畫象徵著台灣在語言數位化上的自我覺醒，未來將持續結合作家、學界與產業界的力量，擴大語料庫建置與應用場域，推動語言成為 AI 世代中台灣最鮮明的文化印記。協會強調，唯有集結更多跨界資源與社會參與，才能讓台灣語言在全球 AI 浪潮中，真正擁有被理解與被尊重的位置。

【新聞聯絡人】
Taiwan Tongues 專案團隊｜IMA 資訊經理人協會
黃榆禎 0937-223-960；taiwantongues@gmail.com
王心妤 0987-325-768；taiwantongues@gmail.com
Taiwan Tongues 專案團隊
社團法人中華民國資訊經理人協會
電話：02-2331-0195 #507
地址：100台北市忠孝西路一段50號18樓之11
Email：taiwantongues@gmail.com

統一編號：14107192
計畫官網：https://tt.ima.org.tw/
計畫粉專：https://www.facebook.com/taiwan.tongues/

2025-05-20----Taiwan Tongues 計畫語料庫持續擴展中

感謝來自台語文學作家胡長松、陳金順、洪明道、林瑞崐、王羅蜜多、高嘉徽、小城綾子、陳秀枝與翻譯作家 Manlajo 等人的慷慨授權，目前已累積超過百萬字資料，並全數上架於 Hugging Face 平台，供全球 AI 開發者、學術研究者與文化推廣機構申請使用。

這些語料不僅涵蓋小說、詩歌、論文與翻譯文本，也將陸續補充台灣客語、原住民族語與新住民語等其他語種。團隊亦與語言學界、教育界、數據工程師密切合作，優化語料標註規格與結構，確保資料具備高品質的 AI-ready 特性。Taiwan Tongues 將持續釋出語料並推動相關應用實例，讓本土語言在數位世界中真正被看見。

最新消息