Ich möchte Strings aus Dokumenten genauso filtern wie der CountVectorizer von Sklearn. Es verwendet die folgende Regex: (? U) \ B \ W \ W+\ B .
Dieser Java -Code sollte genauso verhalten:
Pattern...
Ich habe alles funktioniert außer 1 Byte! Der PNG -Header hat einen 0x0d am 5. Byte. Wenn ich diese Base64 -Funktion benutze, wird dies irgendwie gestreift. Wenn ich den Anhang erhalte, kann ich ihn...