在數位時代,當許多瀕危語言正面臨流失危機,【Wikimedia project boosts software for endangered languages worldwide】一文中提及:即便世界上有超過 7000 種語言在國際中溝通使用,但網路上高達 89% 的資料僅用 10 種語言書寫而成,如何創造多元的語言對話、溝通乃至書寫的環境,成了語言、文化保存的重要行動。
Wikidata 「詞位(Lexeme)」資料類型,讓我們能在資料庫裡結構化地記錄每一個詞彙的詞性、詞根與變化形式,不但為語言研究注入活力,也為語言社群提供編輯新視角。
為了確保資料品質,Wikidata 同步引入 Shape Expressions(ShEx)驗證機制。使用者在撰寫或查詢瀕危語言資料時,就能即時檢查內容的一致性與完整度,大幅降低錯誤與遺漏的風險。
Wikimedia 與 Google Endangered Languages Project(ELP)深化合作,把音檔、影像與文本等珍貴素材透過 CC 授權搬上 Wikimedia Commons,並透過 Wikidata 建立連結。這樣的整合不僅串起不同平台上的珍貴語言資源,也讓全球志工更容易參與整理與校對。
目前已有逾三十種瀕危語言藉此管道完成詞彙整理與多媒體資源彙編,資料品質與豐富度都獲得顯著提升。未來,全球 Wikidata 社群計畫增補正字法編輯工具,並持續擴充字型與多腳本支援,為無書寫系統語言開拓更完善的線上保存管道。
Wikidata Taiwan 近年來陸續推動臺灣各語言詞表、字典以及語言在 Wikidata Lexeme 中的收錄,除了與各原住民維基百科社群主動合作推出主題工作坊,更在網路上搜羅各式開放資料透過 Wikidata 的平台功能進行資料的整合,這些內容目前都收錄於 Wikidata 臺灣專題頁面。
原始文獻:https://itbrief.asia/story/wikimedia-project-boosts-software-for-endangered-languages-worldwide
Wikidata 臺灣專題:https://www.wikidata.org/wiki/Wikidata:WikiProject_Taiwan
#Wikidata #維基數據 #維基資料
#語言 #languages #南島語言
#AI#GenAI