TIKA參考API
用戶可以在使用 Tika 的外觀類在應用程序中嵌入Tika。它的方法來探索Tika的所有功能。因爲它是一個外網類,Tika抽象的背後有其功能的複雜性。除了這一點,用戶還可以使用各種Tika類在他們的應用程序。
Tika 類 (facade)
這是最突出的Tika類庫和正面設計模式。因此,抽象所有的內部實現,並提供了簡單的方法來訪問Tika功能。下表列出該類的構造函數以及它們的描述。
package : org.apache.tika
class: Tika
S.No.
構造函數和說明
1
Tika ()
使用默認配置,構建Tika類。
2
Tika (Detector detector)
通過接受檢測實例作爲參數創建 Tika 的外觀
3
Tika (Detector detector, Parser parser)
創建一個Tika外觀通過接受檢測和解析器實例作爲參數。
4
Tika (Detector detector, Parser parser, Translator translator)
創建一個Tika外觀通過接受檢測器,解析器,並且轉換實例作爲參數。
5
Tika (TikaConfig config)
創建一個Tika外觀通過接受TikaConfig類作爲參數的對象。
方法和說明
以下是 Tika外觀類的重要方法:
S.No.
方法和描述
1
String parseToString (File file)
此方法及其所有變種分析作爲參數傳遞的文件,並返回字符串格式提取的文本內容。默認情況下,這個字符串參數的長度是有限的。
2
int getMaxStringLength ()
返回由parseToString方法返回字符串的最大長度。
3
void setMaxStringLength (int maxStringLength)
設置由parseToString方法返回的字符串的最大長度。
4
Reader parse (File file)
該方法及其所有變型解析作爲參數傳遞的文件,並返回 java.io.Reader對象的形式,所提取的文本內容。
5
String detect (InputStream stream, Metadata metadata)
該方法及其所有變接受InputStream對象和元數據對象作爲參數,檢測出給定文檔的類型,並返回該文件類型的名稱作爲字符串對象。這種方法提煉使用 Tika 的檢測手段。
6
String translate (InputStream text, String targetLanguage)
此方法及其所有變種接受InputStream對象,並表示,我們希望我們的文字被翻譯語言的字符串,並把特定的文本所需的語言,嘗試自動檢測源語言。
解析器接口
這是Tika包的所有解析器類實現的接口。
package : org.apache.tika.parser
Interface : Parser
方法和說明
以下是TikaParser接口的重要方法:
S.No.
方法及描述
1
parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)
這個方法將給定的文檔解析到XHTML和SAX事件序列。解析後,將放置在ContentHandler類的對象,並在元數據的類的對象的元數據,所提取的文件的內容。
Metadata 類
這個類實現了各種接口,如素材,地理,HttpHeaders,消息,微軟Office,氣候預測,TIFF,TikaMetadataKeys,TikaMimeKeys,Serializable接口,支持各種數據模型。下表列出了構造函數和這個類的方法及其說明。
package : org.apache.tika.metadata
class : Metadata
S.No.
構造方法及描述
1
Metadata()
構造一個新的,空的元數據。
S.No.
方法及描述
1
add (Property property, String value)
增加了一個元數據屬性/值映射到給定的文件。使用此功能,可以將該值設置爲一個屬性。
2
add (String name, String value)
增加了一個元數據屬性/值映射到給定的文件。使用這種方法,我們可以使用新名稱的值設置爲一個文件,從現有的元數據。
3
String get (Property property)
返回給定的元數據屬性的值(如果有的話)。
4
String get (String name)
返回給定元數據的名稱的值(如果有的話)。
5
Date getDate (Property property)
返回日期的元數據屬性的值。
6
String[] getValues (Property property)
返回的元數據屬性的所有的值。
7
String[] getValues (String name)
返回給定元數據的名稱的所有的值。
8
String[] names()
返回元數據對象的元數據元素的所有的名字。
9
set (Property property, Date date)
設置給定的元數據屬性的日期值
10
set(Property property, String[] values)
設置多個值到一個元數據屬性。
語言類標識符
此分類標識了特定內容的語言。下表列出了這個類的構造函數以及它們的描述。
package : org.apache.tika.language
class : Language Identifier
S.No.
構造器和說明
1
LanguageIdentifier (LanguageProfile profile)
實例化的語言標識符。在這裏必須通過一個LanguageProfile對象作爲參數。
2
LanguageIdentifier (String content)
這個構造函數可以通過從文本內容傳遞一個String實例化一個語言標識符
S.No.
構造器和說明
1
String getLanguage ()
返回給當前LanguageIdentifier對象的語言。