Java Regex stimmt nicht außerhalb des ASCII -Bereichs überein, verhält sich anders als Python RegexJava

Java-Forum
Anonymous
 Java Regex stimmt nicht außerhalb des ASCII -Bereichs überein, verhält sich anders als Python Regex

Post by Anonymous »

Ich möchte Strings aus Dokumenten genauso filtern wie der CountVectorizer von Sklearn. Es verwendet die folgende Regex: (? U) \ B \ W \ W+\ B < /code>.
Dieser Java -Code sollte genauso verhalten: < /p>

Code: Select all

Pattern regex = Pattern.compile("(?u)\\b\\w\\w+\\b");
Matcher matcher = regex.matcher("this is the document.!? äöa m²");

while(matcher.find()) {
String match = matcher.group();
System.out.println(match);
}
< /code>
, aber dies erzeugt nicht die gewünschte Ausgabe, wie in Python: < /p>
this
is
the
document
äöa
m²
< /code>
Es gibt stattdessen aus: < /p>
this
is
the
document
Was kann ich tun, um Nicht-ASCII-Zeichen einzubeziehen, wie der Python Regeex tut?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post