文本處理簡介

文本處理直接應用於自然語言處理,也稱爲NLP。 NLP旨在處理人類在彼此交流時所說或寫的語言。 這不同於計算機和人之間的通信,其中通信是由人寫的計算機程序或人的某些姿勢,例如在某個位置點擊鼠標。 NLP試圖理解人類所說的自然語言並對其進行分類,並在必要時對其進行分析。 Python擁有豐富的庫,可滿足NLP的需求。自然語言工具包(NLTK)是一套這樣的庫,它提供了NLP所需的功能。

下面是一些使用NLP和python間接使用NLTK的應用程序。

概要

很多時候,我們需要獲得新聞文章,電影情節或重大故事的摘要。 它們都是用人類語言編寫的,而不使用NLP,我們需要依賴另一個人對總結和解釋。 但是在NLP的幫助下,我們可以編寫程序來使用NLTK,並用各種參數彙總長文本,比如在最終輸出中想要的文本百分比,選擇正面和負面的詞彙進行彙總等。在線新聞提要依賴 在這種摘要技術上提出新聞見解。

基於語音的工具

像蘋果Siri或亞馬遜Alexa這樣的基於語音的工具依靠NLP來理解與人類交互非常成功。 他們有大量的單詞,句子和語法訓練數據集來解釋來自人類的問題或命令並對其進行處理。 雖然它是關於語音的,但間接地翻譯成文本,並且由語音產生的文本通過NLP系統來產生結果。

信息提取

Web抓取是使用python代碼從網頁中提取數據的常見示例。 這裏它可能不是嚴格基於NLP,但它確實涉及文本處理。 例如,如果只需要提取html頁面中存在的標題,那麼在頁面結構中查找h1標記,並找到一種方法來僅在這些標記之間提取文本。 這需要來自python的文本處理程序。

垃圾郵件過濾

通過分析主題行中的文本以及消息的內容,可以識別和消除電子郵件中的垃圾郵件。 由於垃圾郵件通常是批量發送給許多收件人,即使他們的主題和內容變化很小,也可以進行匹配和標記以將其標記爲垃圾郵件。它也需要使用NLTK庫。

語言翻譯

計算機化的語言翻譯在很大程度上依賴於NLP。 隨着在線平臺中使用越來越多的語言,將語言從一種語言自動轉換爲另一種語言變得必不可少。 這將涉及編程以處理翻譯中涉及的語言的詞彙,語法和上下文標記。 同樣,也可以使用NLTK處理這些要求。

情緒分析

要找出對電影表現的整體反應,我們可能需要閱讀來自觀衆的數千條反饋帖子。但也可以通過詞語和句子分析使用積極的負反饋分類自動化。 然後測量正面和負面評論的頻率,以找出觀衆的整體情緒。 這顯然需要分析觀衆所寫的人類語言,NLTK也可以用於處理這樣的文本。