91香蕉下载,日韩欧美人妻性视频,久久成人国产精品一区二区

談?wù)勅斯ぶ悄芘c數(shù)據(jù)治理：我們的系統(tǒng)為誰而建？（下）

2019-04-08 09:32 e醫(yī)療

導(dǎo)讀：在真實的場景下，NLP后的數(shù)據(jù)業(yè)務(wù)應(yīng)用，由于準(zhǔn)確率的問題還是需采取“人工智能+人工審核”的方式來做到雙重保險。

AI+大健康；AI+醫(yī)療；人工智能,NLP

【編者按】在真實的場景下，NLP后的數(shù)據(jù)業(yè)務(wù)應(yīng)用，由于準(zhǔn)確率的問題還是需采取“人工智能+人工審核”的方式來做到雙重保險。

本文發(fā)于e醫(yī)療，作者：孫立峰；經(jīng)億歐大健康編輯，供行業(yè)人士參考。

自然語言處理（Natural Language Processing，NLP），是指人與計算機之間，通過“說人話式”語言進行有效通信的各種技術(shù)和方法。由于語言的復(fù)雜性，處理的過程會涉及“理解”，因此NLP被認為距離人工智能最近的任務(wù)，也被稱為“人工智能的皇冠”。

畢竟我們“人說人話”有時候都很難，更別說計算機了。

從臨床科研平臺信息化建設(shè)的發(fā)展歷程看，要想解決數(shù)據(jù)的完整性，就要通過ETL對多源多模態(tài)的數(shù)據(jù)進行整合，也即整合不同廠商的DB，而且有些因為更換系統(tǒng)原廠商已經(jīng)不再為醫(yī)院提供服務(wù)。一家醫(yī)院可能主流的數(shù)據(jù)庫ORACLE、SQLSERVER、MYSQL、DB2都有在用，市面上還有后關(guān)系型數(shù)據(jù)庫Caché。更換系統(tǒng)后，解決數(shù)據(jù)完整性的問題，需要對歷史數(shù)據(jù)、生產(chǎn)數(shù)據(jù)全面整合。這也是為什么醫(yī)療公司的程序員們越來越吃香，被數(shù)據(jù)治理AI公司招攬得越來越多，到甲方工作的也越來越多——需求擺在那里，甲方給的待遇也越來越高了。

數(shù)據(jù)完整性的解決，也是為數(shù)據(jù)倉庫生成高質(zhì)量后結(jié)構(gòu)化數(shù)據(jù)的過程，NLP就是在這個過程中發(fā)揮作用，通過拆解語義元素分詞（區(qū)分魚和蝦），命名實體識別（確定這條是魚，那支是蝦），句法分析，語法分析，解決數(shù)據(jù)結(jié)構(gòu)化問題；然后通過術(shù)語網(wǎng)絡(luò)，將數(shù)據(jù)標(biāo)準(zhǔn)化、歸一化，解決數(shù)據(jù)標(biāo)準(zhǔn)化（魚是魚、蝦是蝦）問題。通過醫(yī)學(xué)知識圖譜的關(guān)聯(lián)和推理，解決基于醫(yī)學(xué)知識的推斷問題，構(gòu)建患者畫像，在科研應(yīng)用、輔助診療、真實世界研究等方面才能深度應(yīng)用。

數(shù)據(jù)的結(jié)構(gòu)化是怎樣煉成的

（1）分詞

對于機器學(xué)習(xí)來說分詞本質(zhì)上是一個分類問題，例如：武漢市長江大橋，機器可以理解為：武漢_市長_江_大橋，武漢市_長江_大橋等等，機器會判斷一個字在一句句子中是作為詞的起始字（B），詞的中間字（I），詞的結(jié)尾字（E），還是一個單字詞（S），這樣就需要對文本進行標(biāo)注，通過機器學(xué)習(xí)算法預(yù)測某些上下文的時候，判斷某個字作為BIES四個類別中哪一個概率最高，最后通過BIES的識別完成分詞。

（2）詞性與關(guān)聯(lián)識別

一句檢查報告的放射學(xué)表現(xiàn)：右側(cè)脛骨髁間突骨端邊緣見骨質(zhì)增生變尖，關(guān)節(jié)在位、關(guān)節(jié)間隙未見狹窄，未見骨質(zhì)破壞及異常軟組織影。

我們要知道“右側(cè)”是方位，“脛骨髁間突”是身體結(jié)構(gòu)，“骨端”、“邊緣”是局部位置，“增生”、“變尖”是描述；我們要知道“右側(cè)+脛骨髁間突”是身體結(jié)構(gòu)方位的限定，“骨質(zhì)+增生”是身體結(jié)構(gòu)的變化。

命名實體識別（NER）就是從文中識別出命名性指稱項，屬于什么實體類別：疾病、檢查、治療、指標(biāo)、癥狀、身體部位……

命名實體關(guān)聯(lián)提取（NERE）就是對上一步得到的命名實體進行處理，把存在關(guān)系的部分用關(guān)系類別（包括：限定關(guān)系、修訂關(guān)系、因果關(guān)系……）將他們聯(lián)系起來，然后進行語義依存分析。

術(shù)語標(biāo)準(zhǔn)化與知識圖譜

標(biāo)準(zhǔn)的應(yīng)用是很難的一件事情，比如ICD-10。最早是病案科（室）專業(yè)的編碼員去編碼，隨著電子病歷的推廣，有些醫(yī)院前移到臨床醫(yī)生填寫、編碼員審核，有些公司CIS系統(tǒng)還開發(fā)了俗名診斷與ICD編碼的映射關(guān)聯(lián)。

如醫(yī)生可能寫：二型糖尿病、II型糖尿病、2型糖尿病、非胰島素依賴糖尿病，系統(tǒng)都自動關(guān)聯(lián)到E11.952這個ICD編碼，但這各對照工作費事費力也會存在遺漏與偏差。這就需要術(shù)語標(biāo)準(zhǔn)化將數(shù)據(jù)歸一化。

同時我們還想知道糖尿病是內(nèi)分泌疾病，糖尿病是代謝性疾病，糖尿病是胰島功能紊亂，這就需要構(gòu)建強大的術(shù)語網(wǎng)絡(luò)建立知識圖譜。

術(shù)語集如疾病庫和臨床發(fā)現(xiàn)庫基于SNOMED-CT、MedDRA、ICD-10、ICD-9-CM-3、RadLex、CMeSH，如藥品和檢驗庫，基于CFDA藥物信息和LOINC，同時還需要儲備大量的術(shù)語資源庫，將各術(shù)語庫內(nèi)部關(guān)聯(lián)，根據(jù)分類、邏輯以及臨床習(xí)慣分類，如影像與疾病庫的關(guān)聯(lián)、檢驗庫與疾病庫的關(guān)聯(lián)等等。

利用自然語言處理、術(shù)語標(biāo)準(zhǔn)化、醫(yī)學(xué)知識圖譜三大核心技術(shù)，解決醫(yī)學(xué)數(shù)據(jù)完整性、醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)學(xué)與算法融合的三大醫(yī)療數(shù)據(jù)利用的核心問題。這樣，高質(zhì)量的數(shù)據(jù)就可以深度應(yīng)用。

如智能檢索。基于自然語言處理引擎結(jié)構(gòu)化和標(biāo)準(zhǔn)化以后的后臺數(shù)據(jù)進行搜索，因此能處理同一概念不同表述形式、否認、指代等關(guān)系，以及對某一報告中數(shù)值型變量進行搜索，這些功能通過常規(guī)搜索方案是完全無法實現(xiàn)的。

例如“先天性心臟病”的搜索，同上面“非胰島素依賴糖尿病”的例子一樣，除了能檢索到使用“先心病”、“先天心臟畸形”、“先天性心臟異?！钡炔灰?guī)范書寫診斷進行表述的患者，也能搜索所有屬于“先天性心臟病”的子概念，例如“室間隔缺損”、“完全性大動脈轉(zhuǎn)位”、“雙心室”等，極大的強化了查全率。

再以上面講的ICD編碼為例，理想的ICD自動化編碼，至少需要從病案首頁、出院小結(jié)、病理報告和手術(shù)記錄四種文本源中尋找編碼依據(jù)，并按照符合ICD_10的標(biāo)準(zhǔn)編碼規(guī)范邏輯進行診斷信息編碼。因此，一個NLP自動化編碼不但需要對文本信息抽取，還需要對知識和邏輯進行管理，最終整合產(chǎn)生輸出。

有多少人工，就有多少智能

上面說了百度NLP在鑒黃語言的應(yīng)用，百度和騰訊都有AI開放平臺，開放的技術(shù)引擎有：OCR（在醫(yī)療應(yīng)用的如身份證OCR、手寫病歷OCR等）、人臉識別（身份驗證、醫(yī)保刷臉支付等）、圖片識別、自然語言處理等。

為什么BAT免費開放NLP技術(shù)引擎，還會涌出這么多專注于NLP的醫(yī)療公司呢？這就是一般NLP和醫(yī)學(xué)NLP的區(qū)別。醫(yī)學(xué)語言的溝通本身除了涉及大量的醫(yī)學(xué)術(shù)語、縮略語、簡稱，還涉及醫(yī)學(xué)知識和邏輯，因此很多時候醫(yī)生書寫的內(nèi)容，不是專業(yè)人士可能幾乎看不懂，更不用說計算機了。

為了實現(xiàn)利用NLP進行信息抽取，需要在常規(guī)NLP流程的每一個步驟進行針對醫(yī)學(xué)的調(diào)整。需要處理醫(yī)學(xué)的詞、醫(yī)學(xué)的句子、醫(yī)學(xué)的詞與詞之間的關(guān)系，讓計算機沿著醫(yī)學(xué)邏輯推理信息；需要針對全科室病歷、?？撇v、專病病歷、檢查報告、病理報告等不同類型文本均衡抽樣，在金標(biāo)準(zhǔn)數(shù)據(jù)集的基礎(chǔ)上進行醫(yī)學(xué)語料訓(xùn)練，各種算法針對不同業(yè)務(wù)場景進行分詞。

決定NLP算法性能的是醫(yī)學(xué)文本標(biāo)注的“質(zhì)”與“量”?！傲俊庇刹煌臉颖窘鉀Q，同時因為每個人對文本的理解不同，其存在最大的問題就是同一份文本標(biāo)注的不一致，所以需要一套標(biāo)準(zhǔn)的分層標(biāo)注流程——分段→分詞→實體分類標(biāo)注→簡單關(guān)聯(lián)標(biāo)注→復(fù)雜關(guān)聯(lián)標(biāo)注→檢查修改→最終標(biāo)注審核——來解決“質(zhì)”的問題。

當(dāng)然，“量”也需要有“質(zhì)”的“量”。

病歷不同于一般的自由文本，其中的挑戰(zhàn)就是文中沒有實際指出但隱含的概念，另外中國語言博大精深，臨床敘事中呈現(xiàn)的信息是無結(jié)構(gòu)的、無語法的。所以文本標(biāo)注體系復(fù)雜，非常依賴醫(yī)學(xué)專業(yè)支持，標(biāo)注成本極高。一份病歷的標(biāo)注就需要兼職（醫(yī)學(xué)院即將畢業(yè)的大學(xué)生）、專職（醫(yī)生）多人去完成。

廣為流傳的故事，當(dāng)年舊金山挖金子的沒賺到錢，賣水的賺了大錢。而一個叫布瑞南的商人，因為要賣鍬，去吆喝金子，最后他的鍬賣出去了，金礦也被開采出來了。所以在如雨后春筍般成立的人工智能公司（“挖金礦”）的背后，催生了一批靠做標(biāo)注生存的小公司（“賣水”），當(dāng)然也有公司兼做標(biāo)注和醫(yī)院聯(lián)合做科研。只是現(xiàn)在的醫(yī)療AI市場，還處于“叫好不叫座”階段，有時還要“羊毛出在狗身上，豬來買單”。

在和醫(yī)院交流的時候，被問到最多的一個問題還是自然語言處理準(zhǔn)確率的問題：99%的準(zhǔn)確率，那1%是否還需要人為100%再去校驗一次？

由于技術(shù)限制，自由文本機器提取的數(shù)據(jù)肯定存在誤差。是要“準(zhǔn)”還是要“全”，要根據(jù)實踐來平衡——如是臨床研究數(shù)據(jù)采集，答案肯定是“是”，因為臨床數(shù)據(jù)的錄入原則上是要接受雙重或多重核查機制的，要的是“準(zhǔn)”；如果是智能檢索，系統(tǒng)需要的是縮小人工檢索符合標(biāo)準(zhǔn)的范圍和數(shù)量，需要的是“全”。用機器一次性解決問題的方案目前還不存在。

也就是說，在真實的場景下，NLP后的數(shù)據(jù)業(yè)務(wù)應(yīng)用，由于準(zhǔn)確率的問題還是需采取“人工智能+人工審核”的方式來做到雙重保險。

談?wù)勅斯ぶ悄芘c數(shù)據(jù)治理：我們的系統(tǒng)為誰而建？（下）

數(shù)據(jù)的結(jié)構(gòu)化是怎樣煉成的

術(shù)語標(biāo)準(zhǔn)化與知識圖譜

有多少人工，就有多少智能

相關(guān)閱讀

談?wù)勅斯ぶ悄芘c數(shù)據(jù)治理：我們的系統(tǒng)為誰而建？（下）

有多少人工，就有多少智能