要聞       |       城市遠洋       |       老外在甘肅      |       直觀中國       |       視界      |       原創       |       熱點專題       |       文旅          
國際首個簡牘字符檢測與識別數據集發佈
2025-04-03 09:55:06來源:甘肅日報編輯:王奇英責編:薛陽

  原標題:我國簡牘智慧化研究取得重要進展 國際首個簡牘字符檢測與識別數據集發佈

  西北師範大學聯合甘肅簡牘博物館近日推出DeepJiandu數據集,這是國際首個專門用於簡牘字符檢測與識別的大規模數據集。數據集包含了7416張簡牘文物(文獻)圖像,並從中標注了99852個簡牘字符,涵蓋了字跡清晰、字跡模糊、字跡完整、字跡殘缺等多種形態特徵的2242種字符類別,可以運用於極具挑戰性的簡牘字符識別任務場景。

  簡牘承載著豐富的文化內涵與歷史信息。然而,簡牘因材料脆弱以及埋藏環境等影響,存在字符模糊、字跡缺損、佈局複雜等問題,使得人工識別與整理極為困難。現有的文獻數字化技術,雖在甲骨文、蒙文手寫體等領域取得突破,但在簡牘字符識別方面仍缺乏高品質的數據集,制約了深度學習應用。

  DeepJiandu數據集的構建,正是為了解決這一問題。西北師大張強教授團隊基於已有的紅外圖像資料,從中篩選出7416張高品質紅外圖像,通過對圖像進行清理、噪聲去除等,增強了字符的可辨識性,提高了字符墨蹟的清晰度。在此基礎上,由簡牘學專家與計算機專家合作,使用目標檢測標注工具,對涵蓋2242種字符類別的99852個字符進行了手動標注,並提供了字符定位和類別標注,確保了數據的專業性與準確性。該數據集的設計,還充分考慮到簡牘字符殘損和異形字等複雜場景,有效提升了模型對歷史文獻的適應能力。

  “DeepJiandu數據集的發佈,標誌著我國簡牘智慧化研究取得重要進展,將提升考古學者對簡牘文獻的解讀效率,為歷史文獻OCR技術突破提供數據資源,為多模態文化遺産保護提供技術路徑。”西北師大簡牘學首席專家張德芳表示。

  據了解,DeepJiandu數據集已載入西北師大簡牘學術資源數據共享平臺。目前,該平臺開發了實物庫、釋文庫、字形庫、著錄庫、文獻庫和專家庫六個庫,利用人工智能、大數據分析、虛擬現實等先進技術,完成了對4萬枚西北漢簡的數字化收錄,不僅為專家學者提供了便捷的研究工具,也向公眾展示了簡牘文化的獨特魅力。該平臺現擁有千余名國內外在線用戶,覆蓋國內外384個科研、文化機構和高等院校。(新甘肅·甘肅日報記者 蘇家英)

國際在線版權與信息産品內容銷售的聲明

1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。

2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。

3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。

已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。

任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。

4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。

5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。