💡加入 Taiwan Wiki 志工行列
讓世界聽見台灣的聲音!
蒐集台灣本土語料的重要性
隨著 AI 科技的快速發展,語言模型的重要性日益凸顯。然而,由於美國與中國在資源與語料上的優勢,當前主流的 AI
模型多以「英文」與「簡體中文」為核心。相較之下,地緣規模較小的台灣,因缺乏足夠的台灣華語(繁體中文)、台語、客語,甚至原住民族語語料,長期在全球數位語料中被忽略。這樣的現象不僅造成語言資料的失衡,也使
AI 難以真正理解台灣人的語氣、用法與文化脈絡,進而讓台灣的語言與文化逐漸被世界邊緣化。
Taiwan Wiki 大修訂運動|Taiwan Tongues 台灣通用語料庫計畫
Taiwan Wiki 大修訂運動 是「Taiwan Tongues 台灣通用語料庫計畫」的重要行動之一。這項計畫旨在推動語言數位平權,讓台灣語言能在全球 AI 生態中被真實呈現與使用。
因此我們非常歡迎自各地的語言志工,共同協助潤飾與修訂台灣在地語言的文字內容。透過集體的語感與生活經驗,讓文字更自然、更貼近真實的日常用語,打造屬於台灣的開放語言資料庫。
你可以怎麼參與?
在 Taiwan Wiki 專案中,我們提供以台灣華語、台語與客語為主的文字內容。志工的任務是檢查語句是否通順自然、語意是否符合台灣在地用法,並根據自身語感進行調整與補充。
#不需任何專業背景,只要你有語感、耐心與熱情,就能參與。
#你的每一個修正,都會讓 AI 更能理解台灣人真實的語言與思考方式。
無論你是語文愛好者、教育工作者、內容創作者,或只是單純想為台灣文化盡一份心力的公民, 你的參與,都是這場行動中最重要的力量。讓我們攜手,為台灣語言在全球 AI 時代中發聲。
👉 立即加入 Taiwan Wiki 志工行列,一起用文字改寫未來!
加入行動 :https://reurl.cc/3Mg0LV
Taiwan Tongues 團隊於 COSCUP 2025 主議程,向開源社群分享推動臺灣多語言開源語料庫的進展與應用案例。本次由IMA資訊經理人協會胡長松主委、陽明交通大學廖元甫教授,以及群聯電子Kled經理共同發表,並與現場開源社群進行交流。
建立世界理解臺灣的語言基礎
Taiwan Tongues 計畫以蒐集、整理並開源臺灣多元語言語料為核心,涵蓋臺灣華語、臺語、客語及各原住民族語言。胡長松老師指出,語料是 AI 時代最稀缺的資源,而目前全球 AI 模型多以簡體中文訓練,對臺灣語言與文化的呈現不足,形成潛在風險。該專案目前已累積超過 600 萬字高品質臺語語料,來源包括文學作家長年創作,並計畫透過 「Taiwan Wiki 大修訂大計畫」 擴充至千萬級 Token 規模,邀請大眾共同修訂、擴展華語、臺語、客語等百科內容,為 AI 建立真實且在地的語境資源。
從語料到應用的技術實踐
廖元甫教授展示了以 600 萬字臺語語料訓練的大語言模型應用原型,能讓使用者以自然描述(華語或臺語)查詢對應的臺語詞彙,並結合辭典與影音資料,協助學習與保存臺語用法。這項技術不僅突破傳統辭典檢索的限制,也為語言復興提供互動化工具。
在地化 AI 訓練方法
群聯電子Kled經理則分享了如何透過 Reward Model 與在地語境訓練方法,讓模型在保持推理能力的同時,回應更符合臺灣文化脈絡的答案。此方法可在消費級 GPU(如 RTX 4090/5090)上運行,降低開發門檻,並推廣至開源創作者與學研單位。
未來展望與社群參與
Taiwan Tongues 團隊強調,計畫的目標不僅是建立龐大的在地語料庫,更要以語料與測試集為核心,結合陽明交通大學廖教授與群聯電子的技術合作,將完整的訓練方法開源,推動全台首個具系統性與組織性的語料建置專案。我們相信,這樣的成果能成為全台 AI 訓練的重要基礎,也期待各領域的 AI 團隊能藉此機會攜手合作,共同擴展台灣語言的數位影響力。
團隊誠摯邀請各界加入 「Taiwan Wiki 大修訂計畫」,一起打造完整、多元且高品質的台灣語言資源,讓未來的 AI 真正理解、應用並傳承台灣的語言與文化。
📢 你的參與 = AI 認識台灣的力量加入我們,讓AI 不只會說台灣話,也能懂得台灣語境。
👉 報名連結:https://reurl.cc/x3LW3e
作家組隊 Team Taiwan;全球 AI
聽台灣
Taiwan Tongues
計畫帶動台灣語言大翻身,AI
再也不是外國腔
發稿日期:114年7月4日
生成式 AI 正以前所未有的速度改變全球溝通與知識生產,但當主流 AI 模型多以英文與簡體中文為主要訓練基礎,台灣華語、台語、客語與原住民族語卻在數位語料中嚴重缺席,導致 AI
難以理解台灣語言與文化,形成新一波數位落差與文化邊緣化。
為翻轉此局面,IMA 資訊經理人協會(IMA協會) 發起 Taiwan Tongues 台灣通用語料庫計畫,目標是讓台灣語言不只是被保存,更成為全球 AI
模型學習的核心語料,讓世界真正「聽懂」與「理解」台灣。
IMA 協會理事長蔡祈岩指出: 語言是文化的根基,唯有打造自主、開放、可信的語料體系,台灣才能在全球 AI
發展中不缺席,讓世界不只看見台灣語言,更能理解台灣語言。
計畫核心:三大步驟,打造 AI 的台灣老師
【台灣通用語料蒐集與開源】
Taiwan Tongues 計畫的第一步,即是擴大台灣語料庫(包含台灣華語、台灣台語、台灣客語及原住民語),讓台灣的聲音被全球 AI 所理解。
2025 年,由吳三連獎得主、台語文學作家同時也是 IMA 委員的胡長松帶頭,無償釋出 150 萬字文學作品,並號召更多創作者共襄盛舉,至今已有數十位作家授權,累計超過 500
萬字高品質語料,並已陸續上架 Hugging Face 平台,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用,邁向打造跨語種、可供 AI
訓練與研究使用的開放資料庫。
【模型語境訓練框架】
群聯電子是 AI 時代驅動儲存與運算創新的關鍵推手,同時身為 Taiwan Tongues 計畫執行委員會一員,整合 Reward Model 及 RL
微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作為企業訓練本地化 AI 的訓練框架。透過此訓練框架,可避免單一模型觀點帶來的偏差風險,並加速模型落地應用,推動產業 AI
能力鏈的建立。
【台灣語境評測】
Taiwan Tongues 亦設計專屬測試集,由 IMA 提供語境與語言能力評測標準,並與陽明交通大學廖元甫教授合作,進行模型實證測試。廖教授團隊將 Taiwan Tongues
作家語料結合教育部台語辭典等公用語料庫,對模型進行持續預訓練(CPT)與監督式微調(SFT),結果顯示台語 AI
模型的正確率顯著提昇,顯著提升台語語意理解與書信生成能力,證實語料品質與語境評測對模型表現的關鍵影響。
如果把 AI 當作學生,Taiwan Tongues 提供的不只是課本(語料),更有教案(模型語境訓練框架)與考卷(語境評測),三者結合,才能讓 AI
真正懂台灣。
目前里程碑:從作家到 AI,文化跨界串連
此次記者會集結政府、產業、學界與文學界多方力量,邀請多位重量級作家與文化工作者,包括胡長松、向陽、曾貴海(由曾澤民代表出席)及文訊雜誌社封德屏社長,親自分享釋出語料的初衷。作家們指出,語言是活的文化,必須被學習與應用,才能真正傳承。他們呼籲更多創作者加入語料共享行列,將書頁上的文字轉譯進
AI,讓文化記憶注入時代能動性。
感謝來自台語文學作家胡長松、陳金順、洪明道、林瑞崐、王羅蜜多、高嘉徽、小城綾子、陳秀枝與翻譯作家 Manlajo 等人的慷慨授權,目前已累積超過百萬字資料,並全數上架於 Hugging Face
平台,供全球 AI 開發者、學術研究者與文化推廣機構申請使用。
這些語料不僅涵蓋小說、詩歌、論文與翻譯文本,也將陸續補充台灣客語、原住民族語與新住民語等其他語種。團隊亦與語言學界、教育界、數據工程師密切合作,優化語料標註規格與結構,確保資料具備高品質的 AI-ready 特性。Taiwan Tongues 將持續釋出語料並推動相關應用實例,讓本土語言在數位世界中真正被看見。