最新消息


💡加入 Taiwan Wiki 志工行列
讓世界聽見台灣的聲音!

蒐集台灣本土語料的重要性
隨著 AI 科技的快速發展,語言模型的重要性日益凸顯。然而,由於美國與中國在資源與語料上的優勢,當前主流的 AI 模型多以「英文」與「簡體中文」為核心。相較之下,地緣規模較小的台灣,因缺乏足夠的台灣華語(繁體中文)、台語、客語,甚至原住民族語語料,長期在全球數位語料中被忽略。這樣的現象不僅造成語言資料的失衡,也使 AI 難以真正理解台灣人的語氣、用法與文化脈絡,進而讓台灣的語言與文化逐漸被世界邊緣化。

Taiwan Wiki 大修訂運動|Taiwan Tongues 台灣通用語料庫計畫
Taiwan Wiki 大修訂運動 是「Taiwan Tongues 台灣通用語料庫計畫」的重要行動之一。這項計畫旨在推動語言數位平權,讓台灣語言能在全球 AI 生態中被真實呈現與使用。
因此我們非常歡迎自各地的語言志工,共同協助潤飾與修訂台灣在地語言的文字內容。透過集體的語感與生活經驗,讓文字更自然、更貼近真實的日常用語,打造屬於台灣的開放語言資料庫。

你可以怎麼參與?
在 Taiwan Wiki 專案中,我們提供以台灣華語、台語與客語為主的文字內容。志工的任務是檢查語句是否通順自然、語意是否符合台灣在地用法,並根據自身語感進行調整與補充。
#不需任何專業背景,只要你有語感、耐心與熱情,就能參與。
#你的每一個修正,都會讓 AI 更能理解台灣人真實的語言與思考方式。
無論你是語文愛好者、教育工作者、內容創作者,或只是單純想為台灣文化盡一份心力的公民, 你的參與,都是這場行動中最重要的力量。讓我們攜手,為台灣語言在全球 AI 時代中發聲。

👉 立即加入 Taiwan Wiki 志工行列,一起用文字改寫未來!
加入行動 :https://reurl.cc/3Mg0LV

Taiwan Tongues 團隊於 COSCUP 2025 主議程,向開源社群分享推動臺灣多語言開源語料庫的進展與應用案例。本次由IMA資訊經理人協會胡長松主委、陽明交通大學廖元甫教授,以及群聯電子Kled經理共同發表,並與現場開源社群進行交流。

建立世界理解臺灣的語言基礎
Taiwan Tongues 計畫以蒐集、整理並開源臺灣多元語言語料為核心,涵蓋臺灣華語、臺語、客語及各原住民族語言。胡長松老師指出,語料是 AI 時代最稀缺的資源,而目前全球 AI 模型多以簡體中文訓練,對臺灣語言與文化的呈現不足,形成潛在風險。該專案目前已累積超過 600 萬字高品質臺語語料,來源包括文學作家長年創作,並計畫透過 「Taiwan Wiki 大修訂大計畫」 擴充至千萬級 Token 規模,邀請大眾共同修訂、擴展華語、臺語、客語等百科內容,為 AI 建立真實且在地的語境資源。

從語料到應用的技術實踐
廖元甫教授展示了以 600 萬字臺語語料訓練的大語言模型應用原型,能讓使用者以自然描述(華語或臺語)查詢對應的臺語詞彙,並結合辭典與影音資料,協助學習與保存臺語用法。這項技術不僅突破傳統辭典檢索的限制,也為語言復興提供互動化工具。

在地化 AI 訓練方法
群聯電子Kled經理則分享了如何透過 Reward Model 與在地語境訓練方法,讓模型在保持推理能力的同時,回應更符合臺灣文化脈絡的答案。此方法可在消費級 GPU(如 RTX 4090/5090)上運行,降低開發門檻,並推廣至開源創作者與學研單位。

未來展望與社群參與
Taiwan Tongues 團隊強調,計畫的目標不僅是建立龐大的在地語料庫,更要以語料與測試集為核心,結合陽明交通大學廖教授與群聯電子的技術合作,將完整的訓練方法開源,推動全台首個具系統性與組織性的語料建置專案。我們相信,這樣的成果能成為全台 AI 訓練的重要基礎,也期待各領域的 AI 團隊能藉此機會攜手合作,共同擴展台灣語言的數位影響力。

團隊誠摯邀請各界加入 「Taiwan Wiki 大修訂計畫」,一起打造完整、多元且高品質的台灣語言資源,讓未來的 AI 真正理解、應用並傳承台灣的語言與文化。

📢 你的參與 = AI 認識台灣的力量加入我們,讓AI 不只會說台灣話,也能懂得台灣語境。

👉 報名連結:https://reurl.cc/x3LW3e

作家組隊 Team Taiwan;全球 AI 聽台灣
Taiwan Tongues 計畫帶動台灣語言大翻身,AI 再也不是外國腔
發稿日期:114年7月4日
生成式 AI 正以前所未有的速度改變全球溝通與知識生產,但當主流 AI 模型多以英文與簡體中文為主要訓練基礎,台灣華語、台語、客語與原住民族語卻在數位語料中嚴重缺席,導致 AI 難以理解台灣語言與文化,形成新一波數位落差與文化邊緣化。

為翻轉此局面,IMA 資訊經理人協會(IMA協會) 發起 Taiwan Tongues 台灣通用語料庫計畫,目標是讓台灣語言不只是被保存,更成為全球 AI 模型學習的核心語料,讓世界真正「聽懂」與「理解」台灣。

IMA 協會理事長蔡祈岩指出: 語言是文化的根基,唯有打造自主、開放、可信的語料體系,台灣才能在全球 AI 發展中不缺席,讓世界不只看見台灣語言,更能理解台灣語言。

計畫核心:三大步驟,打造 AI 的台灣老師

【台灣通用語料蒐集與開源】
Taiwan Tongues 計畫的第一步,即是擴大台灣語料庫(包含台灣華語、台灣台語、台灣客語及原住民語),讓台灣的聲音被全球 AI 所理解。
2025 年,由吳三連獎得主、台語文學作家同時也是 IMA 委員的胡長松帶頭,無償釋出 150 萬字文學作品,並號召更多創作者共襄盛舉,至今已有數十位作家授權,累計超過 500 萬字高品質語料,並已陸續上架 Hugging Face 平台,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用,邁向打造跨語種、可供 AI 訓練與研究使用的開放資料庫。

【模型語境訓練框架】
群聯電子是 AI 時代驅動儲存與運算創新的關鍵推手,同時身為 Taiwan Tongues 計畫執行委員會一員,整合 Reward Model 及 RL 微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作為企業訓練本地化 AI 的訓練框架。透過此訓練框架,可避免單一模型觀點帶來的偏差風險,並加速模型落地應用,推動產業 AI 能力鏈的建立。
【台灣語境評測】
Taiwan Tongues 亦設計專屬測試集,由 IMA 提供語境與語言能力評測標準,並與陽明交通大學廖元甫教授合作,進行模型實證測試。廖教授團隊將 Taiwan Tongues 作家語料結合教育部台語辭典等公用語料庫,對模型進行持續預訓練(CPT)與監督式微調(SFT),結果顯示台語 AI 模型的正確率顯著提昇,顯著提升台語語意理解與書信生成能力,證實語料品質與語境評測對模型表現的關鍵影響。

如果把 AI 當作學生,Taiwan Tongues 提供的不只是課本(語料),更有教案(模型語境訓練框架)與考卷(語境評測),三者結合,才能讓 AI 真正懂台灣。


目前里程碑:從作家到 AI,文化跨界串連

此次記者會集結政府、產業、學界與文學界多方力量,邀請多位重量級作家與文化工作者,包括胡長松、向陽、曾貴海(由曾澤民代表出席)及文訊雜誌社封德屏社長,親自分享釋出語料的初衷。作家們指出,語言是活的文化,必須被學習與應用,才能真正傳承。他們呼籲更多創作者加入語料共享行列,將書頁上的文字轉譯進 AI,讓文化記憶注入時代能動性。


政府支持:主權 AI 與文化自主的戰略實踐

數位發展部林宜敬次長於會中表示,AI 正重塑世界的語言與價值流動,台灣語言在數位世界的能見度面臨嚴峻挑戰,這也是政府推動「主權 AI」的核心意義:不只是技術路線,更是文化自主與民主深化的戰略選擇。林次長並宣布三大合作策略:
  • 政府語料統籌:由數位發展部統籌整合政府機關語料
  • 民間語料整備:由 IMA 推動民間語料授權與整理
  • 深化合作應用深化合作應用:未來強化政府與民間在語料開放、模型建構與應用評測上的合作

未來展望:讓世界不只看見,更能理解台灣語言
Taiwan Tongues 未來將持續募集台灣華語、台語、客語與原住民族語等多語種語料,並與國際大型語言模型平台合作,讓台灣語言成為全球 AI 生態系中不可或缺的一部分。
同時,Taiwan Tongues 並預計開啟 Wiki Taiwan 工作項目,擴增台灣語言在網路世界的能見度。對於台灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目,補足語言差集;而針對台語,第一階段則將先直接翻譯目前維基百科約 140 萬筆繁體中文條目為台語內容,第二階段再進行與英文條目的差集翻譯。此舉不僅可快速大幅增加台灣通用語言的數位內容與 AI 訓練語料,也將進一步實現數位平權與語言文化自主。

IMA 協會指出,AI 的發展不僅是科技力的展現,更是文化主體性的實踐。Taiwan Tongues 計畫象徵著台灣在語言數位化上的自我覺醒,未來將持續結合作家、學界與產業界的力量,擴大語料庫建置與應用場域,推動語言成為 AI 世代中台灣最鮮明的文化印記。協會強調,唯有集結更多跨界資源與社會參與,才能讓台灣語言在全球 AI 浪潮中,真正擁有被理解與被尊重的位置。

【新聞聯絡人】
Taiwan Tongues 專案團隊|IMA 資訊經理人協會
黃榆禎 0937-223-960;taiwantongues@gmail.com
王心妤 0987-325-768;taiwantongues@gmail.com
Taiwan Tongues 專案團隊
社團法人中華民國資訊經理人協會
電話:02-2331-0195 #507
地址:100台北市忠孝西路一段50號18樓之11
Email:taiwantongues@gmail.com

統一編號:14107192
計畫官網:https://tt.ima.org.tw/
計畫粉專:https://www.facebook.com/taiwan.tongues/

感謝來自台語文學作家胡長松、陳金順、洪明道、林瑞崐、王羅蜜多、高嘉徽、小城綾子、陳秀枝與翻譯作家 Manlajo 等人的慷慨授權,目前已累積超過百萬字資料,並全數上架於 Hugging Face 平台,供全球 AI 開發者、學術研究者與文化推廣機構申請使用。

這些語料不僅涵蓋小說、詩歌、論文與翻譯文本,也將陸續補充台灣客語、原住民族語與新住民語等其他語種。團隊亦與語言學界、教育界、數據工程師密切合作,優化語料標註規格與結構,確保資料具備高品質的 AI-ready 特性。Taiwan Tongues 將持續釋出語料並推動相關應用實例,讓本土語言在數位世界中真正被看見。