大資料時代,這些你都瞭解嗎?

半自動法介於人工法和自動法之間,利用技術手段的同時輔以相關學科專家的指導,在減輕專家勞動力的同時又能提升本體構建的準確性。魏順平等人就提出了一種面向文字資料的教育領域本體半自動化構建方法。

大資料時代,這些你都瞭解嗎?

命名實體識別技術實體是教育知識圖譜中最基本的元素,實體識別則是教育知識圖譜構建過程中最基礎、最關鍵的步驟。目前,命名實體識別技術所採用的方法包括:基於詞典和規則的方法、基於統計機器學習的方法以及近年出現的基於深度學習的方法。

大資料時代,這些你都瞭解嗎?

基於詞典和規則的方法該方法透過學科領域專家和語言學者手工制定相應的領域詞典或規則模板,而後採用正則表示式進行匹配。其中,在模板制定的過程中,主要考慮詞性、關鍵詞、詞的位置、指示詞和方向詞等特徵。這種方法雖然識別的準確度高,但編制詞典或制定規則存在耗時耗力、領域遷移性欠佳等問題,僅適用於簡單的識別系統。

大資料時代,這些你都瞭解嗎?

如,任函等人採用定義規則模板的方

式構建了教育領域知識圖譜,並將其應用於智慧教學系統中的互動問答。基於統計機器學習的方法基於統計機器學習的方法,包括隱馬爾可夫模型、最大熵模型、條件隨機場模型等。

其中,隱馬爾科夫模型在命名實體識別方面取得了很好的效果,該方法將命名實體識別任務簡化為序列標註問題,即給定一個觀測序列,求解一個聯合機率,使得標註序列達到最最佳化;而最大熵模型透過熵最大原理來求解特徵函式;條件隨機場模型則應用條件機率原理來處理序列標註問題。上述方法需要將大量人工提取的特徵,送入模型中來實現實體的標記,雖然能夠取得較好的效果,但其人工特徵提取過程增加了模型構建的難度。

大資料時代,這些你都瞭解嗎?

實體關係挖掘能夠判別已經識別出的實體,是否具有指定的語義關係型別。目前,實體關係挖掘技術的主流方法大致分為以下三種:有監督的學習方法、半監督的學習方法和無監督的學習方法。

有監督的關係挖掘方法主要包括:基於邏輯迴歸的方法、基於核函式的方法

、基於條件隨機場的方法,但這些方法存在的最大問題是需要人工標註大量的訓練資料集。

針對該問題,Mintz等人提出了遠端監督的想法,透過藉助已有知識庫來輔助實體關係的挖掘,這在一定程度上降低了標註語料的依賴性。此外,為解決實體之間存在的多語義關係問題,Hoffmann、Surdeanu等人分別提出了基於多例項、多標籤和貝葉斯網路的建模方法。

大資料時代,這些你都瞭解嗎?

近年來,隨著深度學習在模式識別領域的成熟應用,關係挖掘任務逐漸轉向了基於深度學習的研究。Socher、Zeng等人分別提出了基於遞迴神經網路、卷積神經網路的關係挖掘方法。

大資料時代,這些你都瞭解嗎?

同時,為降低關係挖掘過程的複雜性,Miwa提出了一種基於LSTM網路的“端到端”的關係挖掘方法。將實體識別和實體關係挖掘視為兩個獨立的子任務,但這種流水線式的處理方法存在以下缺點:首先,實體識別模組的錯誤會傳播到關係挖掘階段,從而影響關係挖掘的準確性;其次,關係挖掘階段對實體的兩兩組合,產生了大量的冗餘資訊。因此,如何聯合抽取實體及其語義關係,將成為未來研究的重點。