一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

杜逸超1, 徐童1, 馬建輝1, 陳恩紅1, 鄭毅2, 劉同柱3, 童貴顯3

1 中國科學技術大學計算機科學與技術學院,安徽 合肥 230027

2 華為技術有限公司,浙江 杭州 310007

3 中國科學技術大學附屬第一醫院,安徽 合肥 230027

摘要

隨著國際疾病分類(international classification of diseases,ICD)編碼數量的增加,基於臨床記錄的人工編碼難度和成本大大提高,自動ICD編碼技術引起了廣泛的關注。提出一種基於多尺度殘差圖卷積網路的自動ICD編碼技術,該技術採用多尺度殘差網路來捕獲臨床文字的不同長度的文字模式,並基於圖卷積神經網路抽取標籤之間的層次關係,以加強自動編碼能力。在真實醫療資料集MIMIC-III上的實驗結果表明,該方法的P@k和Micro-F1分別為72。2%和53。9%,顯著提高了預測效能。

關鍵詞

ICD編碼 ; 多尺度 ; 殘差網路 ; 圖卷積網路

一種基於深度神經網路的臨床記錄ICD自動編碼方法

論文引用格式:

杜逸超,徐童,馬建輝, 等。 一種基於深度神經網路的臨床記錄ICD自動編碼方法[J]。 大資料, 2020, 6(5): 3-15。

DU Y C, XU T, MA J H, et al。 An automatic ICD coding method for clinical records based on deep neural network[J]。 Big Data Research, 2020, 6(5): 3-15。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

1 引言

國際疾病分類(international classification of diseases,ICD)編碼是在醫院等醫療機構使用的統一的編碼方法。它根據疾病的病因、病理、臨床表現和解剖位置等特性將疾病分門別類,同時也包含手術、診斷和治療程式的統一程式碼。ICD程式碼使用字母數字組合的形式表示具體的疾病或診斷,如E860。0(酒精飲料意外中毒)。ICD程式碼有多種用途,如報告疾病和健康狀況、協助醫療報銷決策、收集發病率和死亡率統計資料等。

臨床記錄包含了患者在醫院就診期間的人口統計學資訊、床邊的生命體徵測量值、實驗室測試結果、診療程式、藥物使用情況、成像報告、死亡率和出院小結等資訊。在醫療機構中,編碼員透過檢視醫生的診斷說明和臨床記錄中的資訊手動分配適當的ICD程式碼,這樣的人工編碼費時費力且容易出錯。人工編碼往往會出現以下幾個難題:ICD程式碼的層次結構導致相同層次的疾病往往難以區分;醫生在撰寫診斷說明時,經常使用縮寫詞和同義詞,極易與ICD編碼的描述產生歧義;在很多情況下,密切相關的多個診斷描述應該被對映到某一特定ICD編碼上,而沒有經驗的編碼人員可能會分別對每種疾病進行編碼。

為了降低人工編碼的難度,一些工作開始嘗試使用機器自動完成ICD編碼任務。早期工作通常使用有監督的機器學習方法進行ICD編碼,這種方法的效率相對較低。近期研究者採用卷積神經網路(convolutional neural network,CNN)和注意力機制(attention mechanism)結合的方式,大大提高了編碼的效率和準確度。雖然之前的方案有所成效,但是自動ICD編碼依然存在一些挑戰:一是臨床記錄往往擁有非常長的字元序列,但是其中僅有少部分關鍵文字片段與某一特定的ICD編碼相關;二是ICD編碼的標籤空間非常龐大,在ICD-9-CM中有超過22 000個編碼,而在新版的ICD10-CM中有超過170 000個編碼,龐大的標籤空間意味著標籤分佈存在不平衡的問題。如圖1所示,在被廣泛用於自動ICD編碼的重症加強護理病房(intensive care unit,ICU)醫療記錄公開資料集MIMIC-III(Medical Information Mart for Intensive Care III)中,共包含8 922個ICD編碼,而在所有病歷中出現次數小於5次的ICD程式碼共有4 344個,ICD程式碼的長尾分佈意味著自動編碼是一個非常大的挑戰。

針對上述問題,筆者基於先前的方法提出了一種多過濾器殘差圖卷積網路的ICD自動編碼技術,可以充分利用臨床記錄的非結構化資料實現較好的自動ICD編碼水平。與之前的工作相比,本文的工作有以下3點貢獻。

● 針對冗長、低質量的臨床記錄文字,之前的工作使用單卷積核進行特徵抽取,難以適應每種ICD程式碼關注的文字片段長度。本文采用多過濾器卷積層抽取不同跨度的文字片段,並使用殘差網路擴大接受域,提取長度種類更多的文字片段模式,以適應不同ICD程式碼關注的文字片段長度。

● 針對層次結構,使用圖卷積神經網路(graph convolutional neural network,GCN)抽取標籤之間的依賴關係,緩解了標籤分佈不平衡的現象,並加強了模型的泛化效能。

● 本文的模型提高了在真實的ICU醫療記錄資料集MIMIC-III上的自動ICD編碼水平。

2 相關工作

2.1 自動ICD編碼

針對醫療記錄的自動ICD編碼一直是醫學資訊領域的熱點問題。20世紀90年代,Larkey L S等人集成了3種分類器:K-近鄰(K-nearest neighbors)、關聯反饋(relevance feedback)和貝葉斯獨立分類器(bayesian independence classifier),並結合患者的醫療記錄進行自動ICD編碼,但是他們的方法僅為每個醫療記錄分配一個ICD代 碼。Franz P等人在非結構化的德語文字上針對醫療記錄採用了一種診斷記錄和ICD程式碼一對一對映的方式進行編碼,顯然這種方法與臨床實踐不符。P erotte A等人使用“平面”和“分層”支援向量機結合MIMIC-II資料集中的出院小結為患者自動分配ICD編碼,前者針對程式碼單獨進行預測,而後者僅在存在父親ICD程式碼的情況下訓練子程式碼。Kavuluru R等人針對肯塔基大學醫學中心的71 463條醫療記錄中的非結構化文字,提出了一種無監督的整合方法和一種基於臨床記錄的特徵抽取和選擇方法,並結合排序演算法實現多標籤ICD自動編碼。K oopman B等人使用一種級聯的支援向量機,根據死亡報告識別與癌症相關的死亡原因,模型的第一級根據ICD-10分類系統確定癌症是否存在,第二級為患者自動分配具體的癌症ICD程式碼。Scheurwegs E等人基於覆蓋度的特徵選擇方法和隨機森林,並結合醫療記錄中的結構化和非結構化文字資訊實現了ICD-9和ICD-10的自動編碼。早期工作通常使用有監督的機器學習方法來進行ICD編碼,忽略了文字的上下文依賴關係以及關鍵詞語的貢獻,這樣的方式難以對高噪聲、高冗餘的現代醫療記錄進行自動ICD編碼。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

圖1 MIMIC-III資料集中ICD編碼的分佈情況

隨著深度學習的發展,近期的許多方法將神經網路的架構應用到自動ICD編碼中。Lipton Z C等人利用長短期記憶網路(LSTM)根據臨床測量的時間序列預測診斷程式碼。Xu K等人採用多種模態資料(包括非結構化文字、半結構化文字和結構化表格資料)構建了一個包含卷積神經網路、長短期記憶網路和決策樹的混合系統來分配程式碼。Shi H等人利用字元感知的長短期記憶網路生成書面診斷描述和ICD程式碼的隱層向量表示,並設計了一種注意力機制來解決診斷描述與相應程式碼之間不匹配的問題。Xie P等人引入序列樹長短期記憶網路(Tree-LSTM)來表示ICD程式碼的層次結構,並採用對抗網路學習不同醫生的診斷記錄風格的差異,最終將自動編碼轉換為語義匹配問題。Duarte F等人利用門控迴圈單元(gated recurrent unit,GRU)和注意力機制,實現了對癌症病人的死亡證明的自動ICD-10編碼。Prakash A等人將維基百科作為知識來源,學習一種壓縮記憶神經網路,以保留特徵的層次結構,從而預測出現頻繁的前50個和前100個ICD程式碼。Baumel T等人使用具有標籤依賴注意力機制的分層GRU模型對ICD程式碼進行分類,同時提供了可解釋的決策過程。Zeng M等人使用在不同的醫療資料集中進行遷移學習的方式,並引入多尺度卷積神經網路,實現較好的自動ICD編碼能力。Mullenbach J等人僅使用MIMIC-III資料集的非結構化文字將卷積神經網路與標籤注意力機制結合在一起,實現了自動ICD編碼的最佳效能。

2.2 圖卷積神經網路

圖卷積神經網路主題最近受到越來越多的關注。許多研究者將成熟的神經網路模型(如適用於規則網格結構的CNN)推廣到圖結構中,以處理更復雜的結構和儲存全域性資訊。在這些工作中,Kipf T N等人提出了一種簡化的圖神經網路模型,即GCN,該模型在許多基準圖資料集上達到了先進的水平。近期,圖卷積神經網路還被用於文字分類任務中,Yao L等人提出了一種文字圖卷積網路(Text-GCN),使用單詞和文件的on-hot向量進行初始化,並聯合學習單詞和文件的表徵,以提高文字分類的效果。Peng H等人提出了一種遞迴正則化的圖卷積網路,在單詞共現圖上進行大規模的文字分類。Rois A等人提出了一種利用GCN學習標籤結構化資訊的方法,提高了在少樣本、零樣本情況下的自動ICD編碼的效能。Wang W等人[28]將GCN和變分自編碼器結合在一起,從而以統一的方式嵌入ICD程式碼,同時引入多工學習方法,提高了ICD編碼的預測能力。

3 基於多尺度殘差圖卷積網路的自動編碼技術

在本節中,針對冗長且低質量的臨床記錄和標籤空間極其龐大且類別不平衡的ICD程式碼,筆者提出了一種基於多尺度殘差圖卷積網路(multi-scale residual graph convolution network,MSResGCN)的方法進行自動ICD編碼。

3.1 概述

與Mullenbach J等人提出的方法類似,自動ICD編碼可以被視作基於臨床記錄的多標籤文字分類問題。針對臨床記錄例項i的編碼可以被表示成將標籤空間中的所有標籤l∈L對映到yi,l∈{0,1}(yi,l=1表示將標籤l分配給例項i)中。圖2展示了模型的架構,模型包含5個主要元件:詞向量查詢層、特徵抽取層、標籤感知的注意力層、標籤結構抽取層和輸出層。首先透過詞向量查詢層為臨床記錄和標籤描述生成向量表示;其次,使用含有多個尺度的卷積模組捕獲不同長度的文字模式,並透過殘差網路擴大接受域;接著,使用標籤感知的注意力機制捕獲與每個ICD程式碼最相關的n個連續出現的詞語(n-gram),以克服臨床記錄冗長的問題;最後,透過|L|個二元分類器為臨床記錄分配ICD程式碼。

3.2 詞向量查詢層

與先前的工作類似,使用gensim工具包在整個MIMIC-III資料集上預訓練word2vec詞嵌入向量

一種基於深度神經網路的臨床記錄ICD自動編碼方法

,其中N是詞表大小,de是預訓練詞向量的維度。本文的模型將臨床記錄序列

一種基於深度神經網路的臨床記錄ICD自動編碼方法

作為輸入,並透過詞向量查詢層為臨床記錄生成文件嵌入向量矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

,其中n是臨床記錄的序列長度。類似地,依據標籤的文字描述序列

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為每個標籤生成一個特徵向量,以避免學習標籤特定的引數,從而緩解標籤空間不平衡的問題。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

圖2 MSResGCN整體架構

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,V表示所有標籤的表徵,vi表示第i個標籤的特徵,Ni表示第i個標籤的文字描述索引集合,M表示所有ICD程式碼集合,|M|表示M的勢。

3.3 特徵抽取層

本文在特徵抽取層中設定了兩個元件:多尺度卷積層和殘差卷積層。由於每個編碼對應的臨床記錄的n-gram的長度會隨著標籤的改變而變化,多尺度卷積層可以使用多個不同尺度的一維卷積模組捕獲多種長度的文字模式。接著透過殘差卷積層擴大接受域,以捕獲更長的文字模式。圖3展示了特徵抽取層的整體架構。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

圖3 特徵抽取層

3。3。1 多尺度卷積層

多尺度卷積層包含多個並行的不同尺度的一維卷積單元。假設擁有m個不同尺度的卷積核,它們對應的尺寸分別為

一種基於深度神經網路的臨床記錄ICD自動編碼方法

。對於給定的臨床記錄輸入矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

,多尺度卷積操作可以被形式化地定義為:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

表示對矩陣X進行卷積操作,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

表示對應的權重矩陣,dc表示每個卷積層的特徵對映維度,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

表示m種不同的卷積尺度,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為輸入矩陣X的子矩陣,分別表示臨床記錄文字的第j個到第j+s1-1個字元和第j個到第j+sm-1個字元的輸入矩陣。為了表達簡潔,在本文所有的計算式中忽略偏差。因為筆者希望輸出矩陣可以保持輸入矩陣的行數,所以對輸入矩陣進行大小為(sm/2)的填充,並使用步幅為1的一維卷積操作

一種基於深度神經網路的臨床記錄ICD自動編碼方法

,最終的輸出為m個特徵矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

3。3。2 殘差卷積層

殘差卷積層包含多個並行的殘差單元,將m個並行的殘差單元與多尺度卷積層中對應的一維卷積單元相連,每個殘差單元的卷積核大小與對應的一維卷積單元保持一致,即

一種基於深度神經網路的臨床記錄ICD自動編碼方法

。如圖4所示,每個殘差單元包含3個一維卷積單元,該單元可以透過擴大接受域來捕獲更長的文字特徵,並使用短路連線保證網路效能不會下降。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

圖4 殘差卷積單元

接下來,以第k個尺度的卷積單元的輸出矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為第k個殘差單元的輸入為例,將殘差單元形式化地定義為:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為殘差單元中第ki個卷積單元的權重矩陣,具體的

一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

一種基於深度神經網路的臨床記錄ICD自動編碼方法

。每個殘差單元的輸出為

一種基於深度神經網路的臨床記錄ICD自動編碼方法

,其中dr表示每個殘差卷積層的特徵對映維度。與多尺度卷積類似,採用相同的方式對輸入矩陣進行填充,以保證輸出矩陣和臨床記錄矩陣的序列長度一致。殘差卷積層最終的輸出為所有殘差單元的拼接:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

殘差單元可以透過擴大接受域來捕獲更長的文字特徵,並使用短路連線保證網路效能不會下降。假設第k個單元的卷積核的寬度為sk=3,多核卷積單元的輸出

一種基於深度神經網路的臨床記錄ICD自動編碼方法

的接受域為3,即可以捕獲tri-gram的特徵,殘差卷積單元第一層輸出

一種基於深度神經網路的臨床記錄ICD自動編碼方法

可以捕獲5-gram的特徵,第二層輸出

一種基於深度神經網路的臨床記錄ICD自動編碼方法

可以捕獲7-gram的特徵,短路操作可以保持原有特徵,從而防止網路退化。

3.4 標籤感知的注意力層

與Mullenbach J等人提出的工作類似,本文采用一種標籤感知的注意力機制來克服臨床記錄中關鍵資訊分散的問題。本文為每個 ICD程式碼都分配了一個注意力向量,以確保能夠捕捉到臨床記錄中所有與該ICD程式碼相關的關鍵資訊。與Mullenbach J等人提出的工作不同的是,為了緩解標籤不平衡的問題,本文將ICD程式碼的表徵作為權重矩陣,而不是學習一個特定注意力引數矩陣。

首先,將特徵提取層的輸出矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

透過簡單的單層神經網路改變矩陣維度,以保證矩陣的第二維與標籤向量的第二維一致:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為改變維度之後的矩陣,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為權重矩陣。接著,為每一個標籤l生成注意力向量,併為每個編碼生成注意力得分:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為標籤l的向量表示,softmax為歸一化指數函式,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為在標籤為l的前提下文件表示矩陣中第i行的注意力得分,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為文件表示矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

與標籤l有關的行的加權平均值。

3.5 標籤結構抽取層

由於ICD編碼擁有天然的樹狀層次結構關係,可以透過GCN捕獲標籤之間的依賴關係,以進一步緩解標籤不平衡的問題。針對標籤l的向量表示

,可以透過結合它的父標籤和子標籤的向量來更新,第k次更新

如下:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,令

一種基於深度神經網路的臨床記錄ICD自動編碼方法

,f是啟用函式,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

矩陣,P和C分別是標籤l的父標籤集合和子標籤集合。需要說明的是,在進行標籤結構抽取時,本文使用的是整個ICD-9-CM的編碼,其中包含了在測試的資料集中沒有的編碼。選取圖卷積神經網路輸出的最後一層所形成的矩陣

一種基於深度神經網路的臨床記錄ICD自動編碼方法

的子集

一種基於深度神經網路的臨床記錄ICD自動編碼方法

作為最終的標籤矩陣。

3.6 輸出層

根據標籤感知的注意力層輸出的“ICD-文件”注意力矩陣和標籤結構抽取層輸出的標籤矩陣為臨床記錄分配類別,定義如下:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

其中,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為標籤l的分類向量,

一種基於深度神經網路的臨床記錄ICD自動編碼方法

為預測結果,表示是否將該標籤分配給病人。

最後,透過最小化真實值yl與預測值

一種基於深度神經網路的臨床記錄ICD自動編碼方法

的二元交叉熵損失函式來訓練本文的模型:

一種基於深度神經網路的臨床記錄ICD自動編碼方法

4 實驗與分析

4.1 資料集

下面在公開資料集MIMIC-III上對模型進行驗證。該資料集包含2001年至2012年在貝斯以色列女執事醫療中心就診的49 583位患者的58 976次入院記錄。每條入院記錄都有出院總結,包括病史、診斷結果 、手術步驟、出院說明等,編碼員根據重要性和相關性從高到低的順序,為患者在住院期間發生的診斷和程式進行編碼。根據患者ID分割資料集,以防止同一名患者同時出現在訓練集和測試集中。表1是MIMIC-III資料切割與統計資料,共有46 157條出院小結用於訓練,3 280條和3 285條資料分別用於驗證與測試。該資料集中一共包含8 922個ICD編碼,包括6 919個診斷編碼和2 003個程式編碼,其中訓練集中包含8 579種不同的ICD程式碼。

對於資料的預處理,本文將所有字元轉換為小寫並刪除純數字和符號,但不刪除類似於“50 mg”的字元,並將出現次數少於3次的字元替換為“UNK”標記。遵循參考[2]的設定,使用gensim工具以連續詞袋(CBOW)模型對訓練集中的所有文字進行word2vec詞向量預訓練,向量維度設定為100,視窗大小設定為5。同時由於醫療記錄過於冗長,本文將字元長度大於2 500的文字截斷,以保證訓練速度。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

4.2 評價指標

為了與之前的工作進行比較,本文使用多種不同的評價指標對模型進行評價,重點使用微平均值Micro-F1、宏平均值Marco-F1和ROC曲線下的面積(AUC)。Micro-F1是將每個“臨床記錄-ICD編碼”對作為單獨的預測來計算的,Marco-F1透過對每個類別計算的指標取平均值而得到。本文還計算了在基準值(ground truth)中出現的得分最高的前k個標籤的比例,即P@k,在實驗中k分別取8和15。

4.3 基準方法

為了證明本文提出的模型的有效性,將提出的MSResGCN與目前最先進的自動ICD編碼方法進行了比較,包含傳統的機器學習方法邏輯迴歸(LR)和3種深度學習方法Text-CNN、CAML和DRCAML。

● Text-CNN:該方法包含一個單層卷積神經網路,沒有標籤依賴的注意力機制,僅使用最大池化的方法提取所有ICD編碼的表示向量。

● CAML和DR-CAML:這兩個方法在MIMIC-III資料集上取得了最優的分類效果。CAML使用Text-CNN進行文件表示學習。為了克服文件過長的情況, Mullenbach J等人提出了標籤依賴的注意力機制,以學習每種特定程式碼與臨床記錄最相關的n-gram。DR-CAML將標籤 表徵作為損失函式的正則化項來增強CAML。他們假設ICD程式碼的描述在語義上與輸入的文字片段相似,這些文字片段可以透過標籤注意力機制來捕獲,DR-CAML透過Text-CNN提取標籤描述表示形式,然後使用均方損失在ICD編碼向量表示和最終分類的權重之間進行正則化。

4.4 實驗設定

本文所有實驗均在一臺處理器為Intel(R) Xeon(R) Gold 5218 CPU@2。30 GHz、記憶體大小為251 GB、GPU型號為Tesla V100SXM2、視訊記憶體大小為32 GB的Centos7伺服器上進行。因為模型的超引數較多,所以遵循Mullenbach J等人的工作對一些超引數進行設定,或者根據經驗選擇一些超引數。預訓練詞向量的維度de為100,多尺度卷積層中每個卷積核輸出通道的尺寸dc為100,學習率為0。000 1,批大小(batchsize)為16,隨機失活率(dropout)為0。2, 5個卷積核的大小

一種基於深度神經網路的臨床記錄ICD自動編碼方法

分別為3、5、10、15、20,圖卷積神經網路的隱層大小為300,圖卷積層數為2。

4.5 實驗結果

本文在MIMIC-III資料集上對提出的模型MSResGCN與部分現有的自動ICD編碼方法進行了比較。表2給出了所有模型在MIMIC-III資料集上的效能表現。從表2可以看出,本文提出的模型MSResGCN在所有指標上都優於之前的分類結果。與之前分類效果最好的模型CAML相比,MSResGCN在Micro-F1上提升了1。1%,在Marco-F1上提高了0。4%;在P@8上提高了0。8%,在P@15上提高了1。2%;同時在Micro-AUC上提高了0。4%,在Marco-AUC上提高了1。3%。從表2可以看出,LR在所有的指標上都低於深度學習方法,這是因為前者使用的是傳統的人工特徵。除此之外,還可以看出,簡單的深度學習模型Bi-GRU和TextCNN有相似的效能水平;CAML和DRCAML相較於除MSResGCN外的其他3種方法效能較好,CAML將Text-CNN與標籤感知的注意力機制結合在一起,提高了抽取臨床記錄中關鍵資訊的能力。MSResGCN使用多尺度的殘差卷積網路來捕獲臨床記錄中不同長度的關鍵文字片段,同時對標籤的層次結構的融合學習使得MSResGCN在標籤不平衡的情況下具有高於其他模型的效能。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

4.6 消融實驗

下面通 過設計消融實驗來驗 證MSResGCN的每個元件的有效性。MSResGCN的主要貢獻是在CAML上擴充套件了兩個重要的元件,分別是多尺度殘差卷積模組和標籤結構抽取模組。實驗的具體設定如下。

● w/o-MSRes:使用單個尺度的卷積層代替多尺度殘差卷積模組,即除了多尺度殘差卷積模組,其他元件都與CAML保持一致,卷積核的長度被設定為最優值10。

● w/o-GCN:刪除標籤結構抽取模組,保持其他元件與CAML一致,即使用特定的引數矩陣代替標籤向量計算標籤注意力得分和最後的分類。

表3展示了消融實驗的結果,在刪除多尺度殘差卷積模組之後,多個指標都有小幅度下降;在刪除標籤結構抽取模組後,Marco-F1大幅下降,並且比CAML的Marco-F1低0。3%,同時AUC下降也較為明顯。由此可以看出,標籤結構抽取模組有助於改善標籤不平衡的問題,多尺度殘差卷積模組可以捕獲更加豐富的關鍵文字片段。

一種基於深度神經網路的臨床記錄ICD自動編碼方法

4.7 可擴充套件性

考慮到資料的尺度對模型訓練時間的影響,將訓練集大小縮小為當前資料集大小的20%、40%、60%、80%進行訓練。分別統計出訓練時間為275 s/輪、541 s/輪、748 s/輪、1 135 s/輪。由此可以看出,隨著資料的增加,MSResGCN的訓練時間呈線性增長趨勢,具有較好的擴充套件性。

5 結束語

本文提出了一種用於自動ICD編碼的多尺度殘差卷積神經網路模型,使用多尺度殘差卷積網路來適應不同標籤依賴的文字片段的長度,同時使用圖卷積神經網路改善了標籤不平衡的問題。筆者在MIMICIII資料集上驗證了本文方法的有效性。在接下來的工作中,筆者將考慮將更多的文字資料和模態資訊進行融合,以進一步提升自動ICD編碼的質量。

作者簡介

杜逸超(1997-),男,中國科學技術大學計算機科學與技術學院碩士生,主要研究方向為資料探勘、知識圖譜 。

徐童(1988-),男,博士,中國科學技術大學計算機科學與技術學院副教授,主要研究方向為資料探勘 。

馬建輝(1975-),男,中國科學技術大學計算機科學與技術學院講師,主要研究方向為資料探勘 。

陳恩紅(1968-),男,博士,中國科學技術大學計算機科學與技術學院教授,主要研究方向為資料探勘和機器學習 。

鄭毅(1987-),男,博士,華為技術有限公司自然語言處理技術專家,主要研究方向為自然語言處理和機器學習 。

劉同柱(1967-),男,博士,中國科學技術大學附屬第一醫院副研究員,主要研究方向為健康大資料和醫院管理 。

童貴顯(1991-),男,中國科學技術大學附屬第一醫院初級經濟師,主要研究方向為健康大資料和醫院管理 。

聯絡我們:

Tel:

010-81055448

010-81055490

010-81055534

E-mail:

bdr@bjxintong。com。cn