Knowledge

【HowiseAIのAI透視鏡】自然語言處理(Natural language processing ,NLP) 是啥?!

自然語言處理屬於人工智慧的一環

近年因為智能客服,讓大家聽聞了「自然語言處理」這個詞彙,但「自然語言處理」就等於「智能客服」嗎?自然語言處理到底是什麼呢?我們得首先瞭解一下,什麼是人工智慧。有學者這麼定義人工智慧:機器模擬人類認知功能,像人腦進行學習和解決問題等能力。

The term 'artificial intelligence' is often used to describe machines that mimic 'cognitive' functions that humans associate with the human mind, such as 'learning' and 'problem solving'[1]

各位請注意他尤其著重在 模擬認知 學習 和 解決問題,而「自然語言處理」 和「人機互動」 就屬於AI的一部分。因為是模擬人類”認知”,所以也就是從人類接收到的訊息,進行學習、理解和回饋,而人類會接收的訊息,其中就包含眼睛看到的、耳朵聽到的,那就會跟視覺、說話有關。所以人工智慧的挑戰就包含:自然語言處理、知覺、學習等等,這邊的知覺包含了電腦模擬人類眼睛做影像辨識,而自然語言處理是處理語言,所以自然語言處理是人工智慧的一環。

「自然語言處理」讓電腦理解人類的語言

一般若是要用一句話描述,我們會這麼解釋自然語言處理---「讓電腦理解人類的語言」。語言就會包含「口語」和「書面語」等,口語也就是嘴巴說出來的,書面語可能是用打字、或是書寫出來的。所以自然語言處理就是讓電腦理解這些嘴巴說出來、打字、書寫等的語言。它是一個跨學門的領域,包含電腦科學和語言學,也就是一個優秀的自然語言處理專家其實需要電腦科學和語言學的知識。因為自然語言處理常需要觀察和找出語言的樣貌,藉此想出讓讓電腦能更容易理解語言的演算法。在語言學領域有另一個詞彙「計算語言學」Computational Linguistics,近年「計算語言學」和「自然語言處理」是相似詞,近乎同義詞。

Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data. [2]

自然語言處理可廣泛應用於各產業

其實,自然語言處理不是最近才出現的技術,大約在1950年代就已出現,在2000年左右,曾有學者和產業專家預言自然語言處理將來會變成越來越重要。ResearchAndMarkets市調研究機構2021年對於自然語言處理的市場規模預估也越來越大,在2026年預估將達351億美元。可以應用在零售、醫療、通訊、媒體娛樂、製造業、金融等,尤其在金融、保險的市場最被看好。[3]

自然語言處理廣泛應用於生活中

更具體描述「自然語言處理」應用,近年興起的「智能客服」是其中一個,輸入問題,輸出可能答案。

其實自然語言處理早已經入侵在我們日常生活中,語音辨識(Speech Recognition)就是自然語言處理的其中一部份,我們可以用嘴巴唸出句子,手機顯示相對應的文字,這是自然語言處理的其中一環。

除了,透過語音辨識把語音轉換成相對應的文字,反過來,將文字轉語音(Text to Speech)也是自然語言處理的一環,還可以變化聲音速度、pitch就是音調等。

實際上,幾年前新興的Apple iPhone上的SIRI,它結合了各種自然語言處理技術,大家回憶一下SIRI你曾經用過或是從未注意過的功能,大家會發現 他用了語音辨識、語意理解和文字轉語音的功能,當然它還和其它各式應用程式結合,所以讓整個功能更強大更便利。

Grammarly,大家在youtube時常跳出的文法錯誤校正軟體,他其實也屬於自然語言處理的一種應用。主詞、受詞用錯了,建議更好的選詞建議。看了Grammarly廣告影片才讓筆者瞭解,原來文法錯誤校正可以幫助你的人生大事啊!

另外,像輸入法。輸入法會根據你的前面書打的文字預測下一個比較有可能出現的選字,譬如:打字輸入「疫情下每個人要學會」,如果只打到「要學」出現的是「藥學」,跟藥品相關的藥學,但多打一個字就會變字。有些輸入法會根據個人以往選詞結果,影響下次當你打字時出現不同的候選字詞。譬如:想要輸入後宮甄環傳,因為之前沒這詞彙,所以出現的候選字都不是你預期,但你當下校正後,再輸入同一發音的字串,就會如你預期,這些都是應用了自然語言處理的技巧。

PDF或是圖檔、影像裡、出現文字,把他自動辨識變成相對應的純文字,也就是光學字元辨識(OCR)的技術。技術上,除了判斷圖像上每個點,以及每個點之間的分佈位置和大小,判斷預測可形成哪個字,實際上若想自動辨識的結果更好,也可透過自然語言處理的技術,協助預測之後面常出現哪個字。

Reference:

Russell, Stuart J.; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach (3rd ed.). Upper Saddle River, New Jersey: Prentice Hall. ISBN 978-0-13-604259-4.

https://en.wikipedia.org/wiki/Natural_language_processing

https://www.globenewswire.com/news-release/2021/03/02/2185147/28124/en/The-Worldwide-Natural-Language-Processing-Industry-is-Expected-to-Reach-35-1-Billion-by-2026.html

作者


張如瑩 博士

自然語言處理 機器學習 文本探勘 資訊檢索 醫療資訊處理

Ru-Yng ChanPhD.

Natural Language Processing, Machine Learning, Text Mining, Information Retrieval, Medicine Information Processing

讀博班的過程面臨張爸病危,過程中深刻感受到身為病人家屬的徬徨、無知和無助,那時改變了生涯規畫,想要將所學應用在醫療健康照護領域,然後在接觸這產業的過程,卻深刻感受到,近年人工智慧雖成為顯學,然後多數的人卻對其一知半解,因此興起想要跟大家分享與討論的念頭。後續將繼續針對人工智慧、自然語言處理、機器學習做更多分享、討論,歡迎來信aiclerkmail@gmail.com訂閱,系統將主動寄送相關訊息,如果有任何感興趣的議題或心中有任何疑惑,也歡迎提出!


昊慧股份有限公司                                                  人工智慧 自然語言處理 機器學習 醫療資訊處理

HowiseAI International Co., LTD.          AI, Natural Language Processing, Machine Learning, Medical Information Processing