2021世界人工智慧大會 | AI識別千年“甲骨文“

新民晚報訊(記者 金志剛)今天在2021世界人工智慧大會現場,合合資訊的智慧文字識別技術提取識別“甲骨文”的展示,吸引了不少人駐足觀看。作為參展企業,合合資訊在本次大會上還展示了國內首個“智慧掃描碳中和”大屏、智慧文字識別平臺Textin、數字政務大腦、企業數字名片、數字客商SaaS雲平臺等智慧解決方案和行業合作案例,以技術創新成果展現真正AI“硬”實力。

2021世界人工智慧大會 | AI識別千年“甲骨文“

圖說:合合資訊透過智慧文字識別技術,識別出復刻在龜甲上的甲骨文 來源/採訪物件供圖

展會現場,合合資訊透過智慧文字識別技術,識別出3600年前中華文明的古老文字——甲骨文。現場展示的復刻在龜甲上形象豐富的甲骨文,透過技術的的提取與翻譯,“白富美”“買它買它”等網路熱詞被識別翻譯出來,令人忍俊不禁。目前這一技術處於內測階段並首次在人工智慧大會上展示,安陽殷墟景區作為這一技術的學術支援單位。

甲骨文作為我國最早的成熟文字、世界四大古文字之一,因刻寫在龜甲和獸骨上而得名。目前,已出土的甲骨碎片多達16萬餘件。可惜的是,這些甲骨碎片被埋在地下多年,經歷了地下活動的衝擊和挖掘造成的磨損,多數甲骨殘缺嚴重;又由於隨著人類歷史的遷徙遍佈於世界各個角落,很難有完整的資訊。隨著人工智慧的引進,透過影象識別技術,可以實現甲骨的自動識別、撮合,為甲骨文學者提質增效。

智慧文字識別技術主要包含了智慧影象處理、基於深度學習的複雜場景文字識別、自然語言處理三個核心技術層。智慧影象處理技術主要對使用者拍攝的複雜文件影象進行預處理,使得文件影象質量得到大幅度提升。例如對影象進行增強,讓影象看起來更清晰,對變形影象進行還原矯正,對影象中因光照不均產生的陰影問題進行處理,對不同角度拍攝的影象進行定位和透視變換矯正。基於深度學習的複雜場景文字識別技術主要利用合合資訊自研的手寫印刷混排識別,抗強幹擾識別,扭曲文字識別,複雜印章和手寫識別等一系列先進深度學習識別技術來解決各種不同複雜場景下的文字識別問題。而自然語言處理技術,則是對識別出的結果進行進一步的語義理解。

合合資訊相關負責人表示:“我們生活中常見的智慧文字識別技術,絕大部分針對的是手寫或印刷版的現代漢字。甲骨文識別的難點在於甲骨殘缺嚴重、素材難獲取、拓片清晰度低等難點,這些都是需要透過技術來解決。例如樣本素材少,從技術層面上,我們需要解決少樣本訓練的問題。目前我們主要是初步研究,更多的工作還在路上。”