在 Java 中從字串中提取 IP 位址
1. 概述
在處理日誌檔案或分析網路流量資料時,我們經常需要從Java中給定的String
中提取IP位址。
在本教學中,我們將研究 IPv4 位址的格式,然後使用 Java 的正規表示式 (regex) 功能建立一個解決方案。
2. 關於 IP 位址的幾句話
IPv4 位址由四個以點分隔的八位元組組成,其中每個八位元位元組是 0 到 255 之間的數字。
0.0.0.0
192.168.0.8
234.223.43.42
255.255.255.0
接下來,我們將製作一個正規表示式模式來識別 IP 位址形式的任何字元序列。然後,我們可以應用此模式從String
中提取所有 IP 位址。
3. 建立符合 IP 位址的正規表示式
我們先看一下正規表示式,然後了解它為什麼符合 IP 位址:
(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)[.]){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)
我們在此正規表示式中使用非捕獲組 (?:)。非捕獲組將事物分組而不建立反向引用。
稍後讓我們看看八位元組模式,以便更輕鬆地理解正規表示式結構。然後,正規表示式看起來像:
(?:(?:OCTET_PATTERN)[.]){3}(?:OCTET_PATTERN)
此部分符合前三個 ( {3}
) 八位元字節,後面跟著一個文字點和末尾的第四個八位元組。值得一提的是,雖然“.”表示正規表示式中的任何單一字符,如果我們將其放入字符類別“ [.]
”中,它會匹配文字點字符。
接下來,讓我們仔細看看OCTET_PATTERN:
(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)
該部分透過組合三種可能性來匹配 0 到 255 之間的任何有效數字。讓我們看看這個內部群組中的每個選項。
- 25[0-5] – 符合 250 到 255 之間的數字
- 2[0-4][0-9] – 符合從 200 到 249 的數字
- [01]? – 符合 0 到 199 之間的數字。
現在我們了解了正規表示式,讓我們建立一個 Java 方法來從String
中提取 IP 位址。
4. 建立提取 IP 位址的方法
首先,讓我們從我們討論過的正規表示式中取得一個 Pattern 實例:
static final Pattern IP_PATTERN = Pattern.compile("(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)[.]){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)");
由於String
可以包含多個 IP 位址,因此讓我們建立一個接受輸入並傳回String
值List
作為提取的 IP 位址的方法:
List<String> extractIP(String input) {
Matcher matcher = IP_PATTERN.matcher(input);
List<String> result = new ArrayList<>();
while (matcher.find()) {
result.add(matcher.group());
}
return result;
}
該方法非常簡單。使用matcher.find(),
我們迭代String,
將每個匹配項收集到預先初始化的ArrayList.
每次呼叫find()
時, matcher.group()
都會傳回符合的子字串(IP 位址),我們將其新增到result List.
接下來,讓我們建立一些測試資料來驗證我們的方法是否按預期工作:
首先,如果String
不包含任何 IP 位址,我們期望得到一個空列表:
static final String INPUT1 = "No IP address here";
static final List<String> EXPECTED1 = Collections.emptyList();
當String
包含單一 IP 位址時,結果List
應包含預期的 IP 位址:
static final String INPUT2 = "My local ip is 127.0.0.1";
static final List<String> EXPECTED2 = List.of("127.0.0.1");
static final String INPUT3 = "Another ip address is 192.168.42.42";
static final List<String> EXPECTED3 = List.of("192.168.42.42");
如前所述,每個八位元組應介於 0 到 255 之間,因此我們應該只提取有效部分:
static final String INPUT4 = "Extract the valid part: 260.1.2.345";
static final List<String> EXPECTED4 = List.of("60.1.2.34");
如果輸入中沒有有效的 IP 位址,則結果應為空:
static final String INPUT5 = "No valid ip address 260.42.342.345";
static final List<String> EXPECTED5 = Collections.emptyList();
當然,如果輸入包含多個IP位址,我們應該取得所有IP位址:
static final String INPUT6 = "We have multiple ip addresses: 127.1.1.0, 192.168.42.42 and 245.30.1.34";
static final List<String> EXPECTED6 = List.of("127.1.1.0", "192.168.42.42", "245.30.1.34");
最後,讓我們使用這些輸入來測試我們的方法:
assertEquals(EXPECTED1, extractIP(INPUT1));
assertEquals(EXPECTED2, extractIP(INPUT2));
assertEquals(EXPECTED3, extractIP(INPUT3));
assertEquals(EXPECTED4, extractIP(INPUT4));
assertEquals(EXPECTED5, extractIP(INPUT5));
assertEquals(EXPECTED6, extractIP(INPUT6));
當我們運行測試時,它通過了。因此,該方法解決了該問題。
5. 結論
在本文中,我們學習如何使用 Java 從String
中提取 IP 位址。使用正規表示式,我們建立了一個偵測有效 IPv4 位址的模式。然後,基於正規表示式模式,我們實作了一個解決方案來捕獲給定字串中的每個 IP。
與往常一樣,範例的完整原始程式碼可在 GitHub 上取得。