中科院：基於新標註方案的實體與關係聯合抽取

ACL 2017 Long Papers

基於新標註方案的實體與關係聯合抽取

【摘要】實體和關係聯合抽取是資訊抽取中的重要任務。為了解決這個問題，我們首先提出了一種新的標註方案，可以將聯合提取任務轉換為標註問題。然後，基於我們的標註方案，我們研究了不同的端到端模型來直接提取實體及其關係，而不是分別識別實體和關係。對遠端監督方法產生的公開資料集進行實驗，實驗結果表明基於標註的方法優於現有的多數流水線和聯合學習方法。此外，本文提出的端到端模型在公開資料集上取得了最好的效果。

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

實體和關係的聯合提取是從非結構化文字中同時檢測實體提及並識別它們的語義關係，如圖1所示。不同於從給定句子中提取關係詞的開放式資訊抽取（Open IE）（Banko et al。， 2007），在本任務中，從一個可能不出現在給定句子中預定關係集中提取關係詞。知識庫的提取和自動構建是一個重要的問題。

圖1 任務的標準例句。“Country-President”是預定義關係集中的關係。

傳統方法以流水線的方式處理這個任務，即首先提取實體（Nadeau和Sekine，2007），然後識別它們之間的關係（Rink，2010）。這個分離的框架使得任務易於處理，並且每個元件可以更靈活。但它忽略了這兩個子任務之間的相關性，每個子任務是一個獨立的模型。實體識別的結果可能會影響關係分類的效能並導致錯誤傳播（Li和Ji，2014）

與流水線方法不同的是，聯合學習框架是使用單一模型將實體和關係一起提取出來。它可以有效地整合實體和關係的資訊，在這個任務中取得了較好的效果。然而，大多數現有的聯合方法是基於特徵的結構化系統（Li和Ji，2014； Miwa和Sasaki，2014； Yu和Lam，2010； Ren等，2017）。他們需要複雜的特徵工程，並嚴重依賴其他NLP工具包，這也可能導致錯誤傳播。為了減少特徵提取的人工工作，最近（Miwa和Bansal，2016）提出了一種基於神經網路的端到端實體和關係提取方法。雖然聯合模型可以在一個模型中同時表示實體和共享引數之間的關係，但它們也可以分別提取實體和關係，產生冗餘資訊。例如，圖1中的句子包含三個實體：“United States”，“Trump”和“Apple Inc”。但只有“United States”和“Trump”才有固定的關係“Country-President”。實體“Apple Inc”與這個句子中的其他實體沒有明顯的關係。因此，從這個句子中提取的結果是{United Statese1，Country-Presidentr，Trumpe2}，這裡叫三元組。

在本文中，我們重點提取由兩個實體和這兩個實體之間的一個關係組成的三元組。因此，我們可以直接對三元組進行建模，而不是分別提取實體和關係。基於這個動機，我們提出了一個標註方案，並配以端到端的模型來解決這個問題。我們設計了一種新穎的標註方案，它包含實體資訊和它們所持有的關係。基於這種標註方案，實體和關係的聯合提取可以轉化為標記問題。這樣，我們也可以很容易地使用神經網路來建模任務，而不需要複雜的特徵工程

最近，基於LSTM（Hochreiter and Schmidhuber，1997）的端到端模型已經成功應用於各種標籤任務：命名實體識別（Lample等，2016），CCG Supertagging（Vaswani等，2016），詞塊分割（Zhai等，2017）等。LSTM能夠學習長期依賴性，這對序列建模任務是有利的。因此，基於我們的標註方案，我們研究了不同種類的基於LSTM的端到端模型來共同提取實體和關係。我們還修改了解碼方法，增加了一個偏置損失，使其更適合我們的特殊標註。

我們提出的方法是一個監督學習演算法。然而，實際上，手工標註具有大量實體和關係的訓練集的過程耗費太大，並且容易出錯。因此，我們透過遠端監督方法（Ren et al。， 2017）產生的公開資料集進行實驗來驗證我們的方法。實驗結果表明我們的標註方案在這個任務中是有效的。另外，我們的端到端模型可以在公共資料集上取得最好的結果

本文的主要貢獻是：（1）提出了一種新的標註方案，聯合提取實體和關係，可以很容易地將提取問題轉化為標註任務。（2）基於我們的標註方案，我們研究了不同型別的端到端模型來解決問題。基於標記的方法比大多數現有的流水線和聯合學習方法要好。（3）此外，我們還開發了具有偏置損失函式的端到端模型，以適應新型標註。它可以增強相關實體之間的關聯。

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

中國科學院

實體與關係抽取是構建知識庫的重要步驟，可為許多NLP任務帶來益處。兩個主要框架已被廣泛用於解決提取實體及其關係的問題。一個是流水線方法，另一個是聯合學習方法

流水線方法將這個任務視為兩個分離的任務，即命名實體識別（NER）（Nadeau和Sekine，2007）和關係分類（RC）（Rink，2010）。經典的NER模型是線性統計模型，如隱馬爾可夫模型（HMM）和條件隨機場（CRF）（Passos等，2014； Luo等，2015）。最近，幾個神經網路體系結構（Chiu和Nichols，2015； Huang等，2015； Lample等，2016）已經成功應用於NER，這被認為是一個連續的分詞標記任務。現有的關係分類方法也可以分為基於手工特徵的方法（Rink，2010； Kambhatla，2004）和基於神經網路的方法（Xu，2015a； Zheng et al。， 2016； Zeng，2014； Xu，2015b； dos Santos ，2015）。

聯合模型使用單一模型提取實體和關係。大多數聯合方法是基於特徵的結構化系統（Ren等，2017； Yang和Cardie，2013； Singh等，2013； Miwa和Sasaki，2014； Li和Ji，2014）。最近，（Miwa和Bansal，2016）使用基於LSTM的模型來提取實體和關係，這可以減少人工工作

與上述方法不同的是，本文提出的方法是基於一種特殊的標記方式，使得我們可以很容易地使用端到端模型來提取沒有NER和RC的結果。端到端的方法是將輸入句子對映成有意義的向量，然後返回產生一個序列。它廣泛應用於機器翻譯（Kalchbrenner和Blunsom，2013； Sutskever等，2014）和序列標註任務（Lample等，2016； Vaswani等，2016）。大多數方法使用雙向LSTM來對輸入句子進行編碼，但是解碼方法總是不同的。例如，（Lample等，2016）使用CRF層來解碼標註序列，而（Vaswani等，2016； Katiyar和Cardie，2016）應用LSTM層來產生標註序列。

中國科學院

我們提出了一種新的標註方案和一個具有偏置目標函式的端到端模型來共同提取實體及其關係。在本節中，我們首先介紹如何將提取問題轉換為基於本文標註方法的標註問題。然後我們將詳細說明用來提取結果的模型。

3。1 標註方案

圖2是標註結果的示例。每個單詞都被分配一個標籤，用於提取結果。標籤“O”代表“Other”標籤，這意味著相應的單詞與提取結果無關。除了“O”之外，其他標籤由三部分組成：實體中的單詞位置、關係型別和關係角色。我們使用“BIES”（Begin， Inside， End， Single）符號來表示單詞在實體中的位置資訊。關係型別資訊是從一組預定義的關係中獲得的，關係角色資訊由數字“1”和“2”表示。提取的結果由三元組表示：（Entity1，RelationType，Entity2）。“1”表示該詞屬於三元組中的第一個實體，而“2”則屬於該關係型別後面的第二個實體。因此，標籤總數為Nt = 2 * 4 * | R | + 1，其中| R |是預定義的關係集的大小。

圖2 “CP”是“Country-President”的簡稱，“CF”是“Company-Founder”的簡稱，是一個基於我們標註方案的例句的標準黃金標註方案。

圖2是一個說明我們的標註方法的例子。輸入句子包含兩個三元組：{United States， Country-President， Trump}和{Apple Inc， Company-Founder， Steven Paul Jobs}，其中“Country-President”和“Company-Founder”是預定義的關係型別。United”，“States”，“Trump”，“Apple”，“Inc” ，“Steven”， “Paul”和“Jobs”等詞都與最終提取的結果有關。因此，他們根據我們的特殊標籤進行標註。例如“United”這個詞是“United States”實體的第一個詞，與“Country-President”關係有關，所以它的標籤是“B-CP-1”。對應於“United States”的另一個實體“Trump”被標記為“S-CP-2”。此外，與最終結果無關的其他字詞標記為“O”。

3。2 從標記序列到提取結果

根據圖2中的標註序列，我們知道“Trump”和“United States”具有相同的關係型別“Country-President”，“Apple Inc”和“Steven Paul Jobs”具有相同的關係型別“Company-Founder”。我們將具有相同關係型別的實體合併為一個三元組來獲得最終結果。因此，“Trump”和“United States”可以合併為關係型別為“Country-President”的三聯體。因為，“Trump”的關係角色是“2”，“United States”是“1”，最終的結果是{United States， CountryPresident， Trump}。這同樣適用於{Apple Inc， Company-Founder， Steven Paul Jobs}。

此外，如果一個句子包含兩個或更多具有相同關係型別的三元組，我們將每兩個元素按照最接近的原則組合成一個三元組。例如，如果圖2中的關係型別“Country-President”是“Country-President”，則在給定句子中將有四個具有相同關係型別的實體。 “United States”最接近實體“Trump”，而“Apple Inc”最接近“Jobs”，因此結果將是{United States， Company-Founder， Trump}和{Apple Inc， Company-Founder， Steven Paul Jobs}。

在本文中，我們只考慮一個實體屬於三元組的情況，並且在將來的工作中考慮重疊關係的識別。

3。3 端到端模型

近年來，基於神經網路的端到端模型在序列標註任務中得到了廣泛的應用。在本文中，我們調查了一個端到端的模型來生成標註序列，如圖3所示。它包含雙向長短期記憶（Bi-LSTM）層來對輸入句子和具有偏置損失的基於LSTM的解碼層進行編碼。偏置損失可以增強實體標籤的相關性。

圖3 我們的模型圖。（a）：端到端模型的體系結構，（b）：Bi-LSTM編碼層中的LSTM記憶塊，（c）：LSTMd解碼層中的LSTM記憶塊。

Chinese Academy of Sciences

在序列標註問題中，Bi-LSTM編碼層已被證明有效捕獲每個單詞的語義資訊。它包含前向lstm層，後向lstm層和連線層。詞嵌入層將one-hot表示的單詞轉換為嵌入向量。因此，一個單詞序列可以表示為W = {w1，。。。 wt，wt+1 。。。 wn}，其中wt∈Rd是對應於句中第t個單詞的d維詞向量，n是給定句子的長度。在詞嵌入層之後，有兩個平行的LSTM層：前向LSTM層和後向LSTM層。 LSTM體系結構由一組遞迴連線的子網（稱為記憶塊）組成。每個時間步是一個LSTM記憶塊。 Bi-LSTM編碼層中的LSTM記憶塊用於根據前一個隱藏向量ht-1、前一個單元向量ct-1和當前輸入詞表示wt計算當前隱藏向量ht。其結構圖如圖3（b）所示，具體操作定義如下：

其中i，f和o分別是輸入門、忘記門和輸出門，b是偏置項，c是記憶元，W（。）是引數。對於每個詞wt，前向LSTM層將透過考慮從詞w1到wt的上下文資訊（其被標記為

）來編碼wt。類似地，後向LSTM層將基於從wn到wt的上下文資訊來編碼wt，其被標記為

。最後，我們連線和來表示字t的編碼資訊，表示為

。

1 引言

我們也採用LSTM結構來生成標註序列。當檢測到單詞wt的標註時，解碼層的輸入為：從Bi-LSTM編碼層獲得的ht，以前的預測標籤表示Tt-1，以前的單元值

，以及解碼層中的前一個隱藏向量

。圖3（c）顯示了LSTMd記憶塊的結構圖，具體操作定義如下：

最終的softmax層根據標籤預測向量Tt計算歸一化實體標籤機率：

Wy是softmax矩陣，Nt是標籤總數。由於T與標籤嵌入類似，並且LSTM能夠學習長期相關性，所以解碼方式可以對標籤互動進行建模。

1 引言

我們訓練我們的模型來最大化資料的對數似然性，我們使用的最佳化方法是Hinton在（Tieleman和Hinton，2012）提出的RMSprop。目標函式可以定義為：

是訓練集的大小，Lj是句子xj的長度，

是單詞xj中詞t的標註，

是在公式15中定義的歸一化標註機率。此外，I（O）是一個開關函式，以區分標註‘O’與可指示結果的相關標註間的損失。他被定義如下：

α是偏置權重，α越大，對模型中相關標註的影響越大。

4。1 實驗設定

相關工作

為了評估我們方法的效能，我們使用由遠端監督方法（Ren et al。， 2017）生成的公共資料集NYT。大量的訓練資料可以透過遠端監控的方式獲得，無需人工標註。測試集是手工標記以確保其質量。訓練資料總共包含353k三元組，測試集包含3，880三元組。此外，關係集的大小是24。

相關工作

我們採用標準Precision（Prec）、Recall（Rec）和F1分數來評估結果。與經典方法不同，我們的方法可以在不知道實體型別資訊的情況下提取三元組。換句話說，我們沒有使用實體型別的標籤來訓練模型，因此我們不需要在評估中考慮實體型別。當三元組的關係型別和兩個對應的實體的頭部偏移都是正確的時，這個三元組被認為是正確的。此外，還給出了正確標註關係提及，並排除了“None”標籤（Ren等，2017； Li和Ji，2014； Miwa和Bansal，2016）。我們透過從測試集中隨機抽取10％的資料來建立驗證集，並使用剩餘的資料作為基於（Ren等，2017）的建議的評估。我們對每個實驗執行10次，然後報告平均結果和它們的標準偏差，如表1所示。

表1 提取兩個實體及其關係的不同方法的預測結果。第一部分（從第一行到第三行）是流水線方法，第二部分（第四行到第六行）是聯合提取方法。我們的標註方法在第三部分（第7到第9行）中顯示。在這一部分，我們不僅報告準確率、召回率和F1的結果，我們還計算了它們的標準差。

我們的模型由一個BiLSTM編碼層和一個具有偏置目標函式的LSTM解碼層組成。在編碼部分中使用的單詞向量是透過在NYT訓練語料庫上執行word2vec（Mikolov等，2013）來開始的。詞表示向量的維數為d = 300，我們使用嵌入層上的損失來對我們的調整網路，丟失率為0。5。編碼層的lstm單元數為300，解碼層數為600。對應於表1結果的偏置引數α為10

我們將我們的方法與幾種經典的三元組提取方法進行比較，這些方法可以分為以下幾類：流水線方法、聯合提取方法和基於標記方案的端到端方法。

對於流水線方法，我們遵循（Ren et al。， 2017）的設定：NER結果由CoType（Ren等，2017）獲得，然後應用幾種經典的關係分類方法來檢測關係。這些方法是：（1）DS-logistic（Mintz等，2009）是一種遠端監督和基於特徵的方法，它結合了監督IE和無監督IE特徵的優點；（2）LINE（Tang等，2015）是一種網路嵌入方法，適用於任意型別的資訊網路；（3）FCM（Gormley等，2015）是一個組合模型，它將詞彙化的語言語境和詞嵌入表示結合起來進行關係抽取。

本文所採用的聯合提取方法如下：（4）DS-Joint（Li和Ji，2014）是一種監督方法，它使用結構化感知器在人註釋的資料集上共同提取實體和關係。（5）MultiR（Hoffmann等人，2011）是一種基於多例項學習演算法的典型遠端監督方法，用於對付有噪聲的訓練資料；（6）CoType（Ren et al。， 2017）是一個領域無關的框架，將實體提及、關係提及、文字特徵和型別標籤聯合嵌入到有意義的表示中。

此外，我們還將我們的方法與兩種典型的端到端標註模型進行了比較：LSTMCRF（Lample等，2016）和LSTM-LSTM（Vaswani等，2016）。透過使用雙向LSTM編碼輸入句子和條件隨機場來預測實體標註序列，提出LSTM-CRF用於實體識別。與LSTM-CRF不同，LSTM-LSTM使用LSTM層來解碼標註序列而不是CRF。它們被首次用於根據我們的標記方案共同提取實體和關係。

4。2 實驗結果

我們展示了不同方法的結果，如表1所示。可以看出，我們的方法LSTM-LSTM-Bias在F1得分方面優於所有其他方法，與最佳方法CoType（Ren et al。， 2017）相比，F1提高了3％。它顯示了我們提出的方法的有效性。從表1還可以看出，聯合提取方法優於流水線方法，標註方法優於大多數聯合提取方法。這也驗證了我們的標註方案對共同提取實體和關係的任務的有效性。

與傳統方法相比，端到端模型的準確率顯著提高。但是隻有LSTM-LSTM-Bias可以更好地平衡準確率和召回率。原因可能是這些端到端模型都使用Bi-LSTM編碼輸入句子和不同的神經網路來解碼結果。基於神經網路的方法可以很好地擬合數據。因此，他們可以很好地學習訓練集的共同特徵，並可能導致較低的可擴充套件性。我們還發現，基於我們的標註方案，LSTM-LSTM模型優於LSTM-CRF模型。因為，LSTM能夠學習長期的依賴關係，CRF（Lafferty等，2001）擅長捕捉整個標註序列的聯合機率。相關的標籤可能相距很遠。因此，LSTM解碼方式比CRF好一些。 LSTM-LSTM-Bias增加了一個偏置權重，以增強實體標註的效果，減弱無效標註的影響。因此，在這個標註方案中，我們的方法可以比普通的LSTM解碼方法更好。

方法

5。1 錯誤分析

在本文中，我們著重於提取由兩個實體和一個關係組成的三元組。表1顯示了任務的預測結果。只有當兩個相應實體的關係型別和頭部偏移量都是正確的時候，它才能處理三元組。為了找出影響端到端模型結果的因素，我們分析了預測三元組中每個元素的效能，如表2所示。E1和E2分別表示預測每個實體的效能。如果第一個實體的頭部偏移是正確的，那麼E1的例項是正確的，與E2相同。不管關係型別，如果兩個對應實體的頭部偏移都是正確的，則（E1，E2）的例項是正確的。

表2 基於我們的標註方案的三元組元素的預測結果。

如表2所示，與E1和E2相比，（E1，E2）具有更高的準確率。但其召回率低於E1和E2。這意味著一些預測的實體不會形成一對。他們只獲得E1而沒有找到相應的E2，或者獲得E2並且沒有找到相應的E1。因此，它導致更多的單E和更少（E1，E2）對的預測。因此，實體對（E1，E2）比單個E具有更高的準確率和更低的召回率。另外，表1中的預測結果與表1中的預測結果相比，表2中的（E1，E2）這意味著3％的測試資料被預測為錯誤的，因為關係型別被預測為錯誤的。

5。2 偏置損失分析

與LSTM-CRF和LSTM-LSTM不同的是，我們的方法偏向於關係標籤來增強實體之間的聯絡。為了進一步分析偏置目標函式的影響，我們將每個端到端方法預測單個實體的比例視覺化，如圖4所示。單個實體是指那些找不到相應實體的實體。圖4顯示了是E1還是E2，我們的方法在單個實體上的比例相對較低。這意味著我們的方法可以有效地將兩個實體關聯起來，比較LSTM-CRF和LSTM-LSTM對關係標籤關注不多。

圖4 每種方法預測的單個實體的比例。比率越高，剩下的實體越多。

此外，我們也將偏差引數α從1改變到20，預測結果如圖5所示。如果α太大，會影響預測的準確率，如果α太小，召回率會下降。當α= 10時，LSTM-LSTMBias可以平衡準確率和召回率，並且可以達到最好的F1分數。

圖5 LSTM-LSTM-Bias對不同偏置引數α的預測結果。

5。3 案例分析

在本節中，我們觀察端到端方法的預測結果，然後選擇幾個有代表性的例子來說明這些方法的優缺點，如表3所示。每個例子包含三行，第一行是黃金標準，第二行和第三行分別是模型LSTM-LSTM和LSTM-LSTM-Bias的提取結果。

表3 來自不同模型的輸出。標準Si代表句子i的黃金標準。藍色部分是正確的結果，紅色部分是錯誤的。’3’中E1CF是E1CompanyFounder的簡稱。

S1表示兩個相關實體之間的距離彼此很遠的情況，這使得更難以發現他們的關係。與LSTMLSTM相比，LSTM-LSTM-Bias使用偏置目標函式來增強實體之間的相關性。因此，在這個例子中，LSTM-LSTMBias可以提取兩個相關的實體，而LSTMLSTM只能提取一個“Florida”實體，不能檢測實體“Panama City Beach”。

S2是一個負面的例子，表明這些方法可能錯誤地預測了一個實體。Nuremberg和Germany實體之間沒有任何指示性詞語。另外，Germany和MiddleAges之間的“a *”形式可能容易誤導它們之間存在“包含”關係的模式。透過將這種表達模式的一些樣本新增到訓練資料中可以解決問題。

S3是模型可以預測實體頭部偏移量的情況，但是關係角色是錯誤的。 LSTM-LSTM將“Stephen A。Schwarzman”和“Blackstone Group”都視為實體E 1，並且找不到相應的E 2。雖然LSTM-LSMT-Bias可以找到實體對（E1，E2）它扭轉了“Stephen A。 Schwarzman”和“Blackstone Group”的角色。這說明LSTM-LSTM-Bias能夠更好地預測實體對，但是在區分兩個實體之間的關係方面還有待改進。

Bi-LSTM編碼層。

LSTM解碼層。

在本文中，我們提出了一種新的標註方案，並研究端到端模型來共同提取實體和關係。實驗結果表明了我們提出的方法的有效性。但是在重疊關係的識別上還存在著一些缺陷。在未來的工作中，我們將用多個分類器來替換輸出層中的softmax函式，這樣一個詞可以有多個標籤。這樣，一個單詞可以出現在多個三元組結果中，可以解決重疊關係的問題。儘管我們的模型可以增強實體標註的效果，但是兩個相應的實體之間的關聯仍然需要在接下來的工作中進行細化。

論文下載連結：

fhttp：//www。aclweb。org/anthology/P/P17/P17-1113。pdf

偏置目標函式。

4 實驗