Page 1 of 1

Java Regex -Muster -Matcher, um ungewöhnliche Charaktere und asiatische Ideografien zu identifizieren

Posted: 19 Aug 2025, 12:13
by Anonymous
Ich möchte den folgenden Text durchgehen, um bestimmte Elemente basierend auf den Java Regex -Mustern zu extrahieren: < /p>

Code: Select all

『卥』
Für dieses Element 『卥』 , ich denke, ich werde das Element immer zwischen 『 und』 finden, und dies sollte maßgeblich sein, da dies ziemlich ungewöhnliche Entitäten sein sollte. Java Regex -Muster -Matcher, um die ganze Klassen von Charakteren zu entsprechen, aber ich habe nicht viel dafür gefunden, nur ein oder zwei spezifische zu entsprechen und Dinge zwischen dazwischen zu entfernen. Das ist sicherlich möglich, würde ich denken, nicht wahr? Wie mache ich das?match(`『` and `』`)
{
print(what comes between them)
}
< /code>

hat dies versucht, aber nicht funktioniert: < /p>

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class text_processing
{
@SuppressWarnings("resource")
public static void main(String[] args) throws IOException
{
String sCurrentLine;
BufferedReader br = new BufferedReader(new FileReader("/home/matthias/Workbench/SUTD/1_February/brute_force/items.csv"));

Pattern p = Pattern.compile("/『(.*?)』/");

while ((sCurrentLine = br.readLine()) != null)
{
Matcher m = p.matcher(sCurrentLine);
System.out.println(m);
}
}
}
< /code>

Vielen Dank für Ihre Überlegung < /p>