Knowledge

【HowiseAIのAI透視鏡】自然語言處理 在 醫療保險產業能做? Part I

上一回初步簡介了人工智慧(Artificial Intelligence, AI)中的自然語言處理(Natural language processing , NLP),這回我們從特定領域的資料與應用情境加以說明,希望能讓大家對自然語言處理更理解。

非結構化資料的分析與理解,就是自然語言處理最能發揮強項的地方。非結構化資料(Unstructured Data),如:文件、email、網頁內容…等。眾多繁雜的臨床資料,例如:出院病摘(Discharge Summary) 、各式檢查報告(如:胸部X光檢查報告、腹部超音波檢查報告)以及診斷證明書的醫囑…等(為簡化陳述,以下統稱病歷),同樣也多以非結構的格式儲存著,如下圖上方就是以非結構化方式陳述的檢查報告病歷。因為書寫的型態自由,因此相對於結構化資料,非結構化資料更可保留更豐富和完整的資訊。

非結構化病歷難以分析、統計、應用

對於電腦而言,這些非結構化的資料卻是難以分析、統計和加以應用的。非結構化陳述的方式,讓一般人想要進一步觀察分析統計,變得很不容易,而且很難找到記錄的資訊在哪裡了。舉例:若想觀察子宮肌瘤發生的現象,諸如:檢查時間、年齡、尺寸變化、顆數變化與生長位置。過往可能要先透過既有病歷系統,透過關鍵詞,輸入子宮肌瘤,在超音波報告裡搜尋,找到有超音波名稱的相關檢查報告,再從裡頭找到有cm等字眼,先篩選出可能符合需求的報告,然而,一個疾病名稱可能有多種英文寫法,像子宮平滑肌瘤就有至少五種以上寫法,子宮頸癌就至少十種以上的寫法,病歷中的疾病名稱可能是該次診斷結果或病史,有時還會拼錯字、中英文夾雜,這些狀況都造成要從病歷裡篩選符合屬於有子宮肌瘤的病歷變成一困難重重的考驗,不是用關鍵詞搜尋就能滿足需求的。何況,接著找到有cm的字眼前,還要再看前面的字串才能得知子宮肌瘤的尺寸,但是有些cm可能是指器官或組織的尺寸,必須手工擷取、紀錄符合條件的病歷和子宮肌瘤的尺寸,這將是一個非常耗時耗力的龐大工程。

自然語言處理可協助病歷變成可拆解、統計、分析

人工智慧領域的自然語言處理,能從非結構化或半結構化的電子資料中自動的擷取並識別其語意類別,也就是將非結構化資料自動轉成結構化據語意之資訊 。

如圖上方所示非結構化的檢查報告內容,透過自然語言處理自動識別與擷取後可知〝姓名:林X霞...3 myomas were noted in myometrium: 3.79x3.14, 3.45x4.98, 2.84x2.59cm. Bilateral adnexa: grossly normal〞其中字串〝46〞是年齡,〝myomas〞是發現物,〝myomas〞是發現物,〝myometrium〞是發現物位置、〝3.79x3.14〞、〝3.45x4.98〞、〝2.84x2.59〞cm是發現物尺寸...等,也就是電腦可以知道哪個語意對應哪個字串和其字串位置 。相對來說,也就可以產生如圖下方據語意結構化的資料。所以即便不同病歷中用不同詞彙表達或是拼錯字的子宮肌瘤也能被系統自動抓出,系統可以進一步輸出,該堆病歷中最大尺寸的子宮肌瘤,或是同年齡的患者平均子宮肌瘤尺寸、數目等。原本難以拆解、統計、分析的非結構化資料,都變成可拆解、統計與分析的據語意結構化的資料。

國際上相關病歷分析工具

市面上不少相關工具,譬如:Apache cTAKES、Google AuotML NLP適合技術研發人員,可節省技術人員做技術研發過程中的成本,但對中英文夾雜的資料其處理效果不佳。AI Clerk Platform 則強調連非資訊背景的人都適合使用,在不用寫程式的情況下,就可以自行完成符合客製化需求自然語言處理病歷的工具,可自行設定欲自動擷取的語意類別,譬如:A君想要擷取電腦斷層報告中所有的發現物、B君想要擷取電腦斷層報告中所有的癌症,AI Clerk Platform都可以滿足他們各自需求,且可支援中英文夾雜的資料處理。Google AuotML NLP放置在雲端,可從本地端遠端呼叫使用其自動辨識結果,不適合重視個資隱私資料的機構。Apache cTAKES可下載在本機電腦上使用,比較適合單機電腦使用,對於企業級大量資料的處理,則需另外再自行架構分散式運算和自動備援機制。AI Clerk Platform則可在雲端使用或是落地建置在機構內,可支援多種類輸入與輸出格式,支援分散式運算架構和自動備援機制,是一整套將非結構化資料轉成據語意結構化資料的完整流程方案,雲端版保留Google AuotML NLP的優點,落地版則適合重視個資隱私資料的機構,順道一提,AI Clerk Platform通過新一代國際醫療資料交換標準FHIR聯測,亦受到2021國家新創獎-企業新創獎-智慧醫療與健康科技肯定。

衍生效益

對於醫療人員/研究機構來說:可以幫助降低醫療學習和研究成本,產生更多的醫學研究成果。

對於醫院來說:可協助減少誤診、降低不必要營運成本、協助加速臨床試驗、促進營運效益並可整合既有系統,衍生出各種智慧醫院的服務,是未來數位醫療的重要核心基礎。

對於人壽保險公司而言:可協助其將傳統理賠核保有關病歷處理過程進行數位轉型,減少營運成本,產生更多精算保費的素材,設計新保單,促進營運效益。

作者


張如瑩 博士

自然語言處理 機器學習 文本探勘 資訊檢索 醫療資訊處理

Ru-Yng ChanPhD.

Natural Language Processing, Machine Learning, Text Mining, Information Retrieval, Medicine Information Processing

讀博班的過程面臨張爸病危,過程中深刻感受到身為病人家屬的徬徨、無知和無助,那時改變了生涯規畫,想要將所學應用在醫療健康照護領域,然後在接觸這產業的過程,卻深刻感受到,近年人工智慧雖成為顯學,然後多數的人卻對其一知半解,因此興起想要跟大家分享與討論的念頭。後續將繼續針對人工智慧、自然語言處理、機器學習做更多分享、討論,歡迎來信aiclerkmail@gmail.com訂閱,系統將主動寄送相關訊息,如果有任何感興趣的議題或心中有任何疑惑,也歡迎提出!


昊慧股份有限公司                                                  人工智慧 自然語言處理 機器學習 醫療資訊處理

HowiseAI International Co., LTD.          AI, Natural Language Processing, Machine Learning, Medical Information Processing