Lucene教學
Lucene環境設置
Lucene第一個應用程序
Lucene索引類
Lucene IndexWriter類
Lucene目錄
Lucene文檔
Lucene字段
Lucene Searching類
Lucene IndexSearcher類
Lucene Term類
Lucene Query類
Lucene TermQuery類
Lucene TopDocs類
Lucene索引過程
Lucene索引操作
Lucene添加文檔操作
Lucene更新文檔操作
Lucene刪除文檔操作
Lucene Field選項
Lucene搜索操作
Lucene查詢編程
Lucene TermRangeQuery類
Lucene PrefixQuery類
Lucene BooleanQuery類
Lucene PhraseQuery類
Lucene WildcardQuery類
Lucene FuzzyQuery類
Lucene MatchAllDocsQuery類
Lucene分析
Lucene Token
Lucene TokenStream
Lucene Analyzer類
Lucene WhitespaceAnalyzer
Lucene SimpleAnalyzer類
Lucene StopAnalyzer類
Lucene StandardAnalyzer類
Lucene排序
Lucene分析
正如我們已經看到在前一章的Lucene索引過程,Lucene使用IndexWriterwhich分析用分析儀文件,然後根據需要創建/打開/編輯索引。在本章中,我們將討論不同類型的分析對象,哪些是在分析過程中使用的相關對象。瞭解分析過程中,分析儀如何工作,會給Lucene索引文件很大的啓示。
以下是我們將在適當的時候討論對象的列表。
Sr. No.
類和說明
1
Token
令牌表示(起始偏移量,結束偏移,令牌類型和位置增量位置,)在像它的元數據相關的詳細信息的文檔中的文本或字。
2
TokenStream
TokenStream是分析過程中的一個輸出,它包括串聯的令牌。它是一個抽象類。
3
Analyzer
這是對每個類型分析器的抽象基類。
4
WhitespaceAnalyzer
該分析儀analyzer分割的基礎的空白文檔中的文本。
5
SimpleAnalyzer
此分析器分割在基於非字母字符的文檔的文本,然後小寫它們。
6
StopAnalyzer
該分析儀的工作原理類似於SimpleAnalyzer並刪除常用詞像 'a','an','the'等等。
7
StandardAnalyzer
這是最複雜的分析,並能處理姓名,電子郵件地址等,它小寫每個標記,並刪除常用詞和標點符號(如有)。