Programmiererforum

Quote Anonymous

by Anonymous » 19 Aug 2025, 12:13

Ich verwende diesen Code: < /p>

Pattern pat_1 = Pattern.compile("class=\"\"pinyin\"\">(.*?)");
Matcher mat_1 = pat_1.matcher( text );
while( mat_1.find() )
{
System.out.println( mat_1.group(1) );
}
< /code>

Dies ist die Eingabedatenquelle mit Gewicht: < /p>



拼音：xīSetduyin('Duyin/xi1')　注音：ㄒㄧSetduyin('Duyin/xi1')

简体部首：丨　部首笔画：1　总笔画：8
繁体部首：卜　部首笔画：2　总笔画：8
康熙字典笔画( 卥:8； )
< /code>

Das [url=viewtopic.php?t=26065]Problem[/url] mit meinem Code besteht darin, dass es auch ㄒㄧ < /code> aufnimmt, da die vorhergehenden und Verfahrenselemente identisch sind. Wie könnte ich ㄒㄧ

ausschließen und nur xī auswählen. Vielleicht kann ich das
-Tag verwenden, da dies etwas einzigartiges für das erste Mal ist, aber das erfordert die Identifizierung einer neuen Zeile und das Ignorieren von 拼音： Wie geht es das? Ich habe mit regex101.com herumgespielt, aber ich konnte es noch nicht festhalten. < /p>

Um jetzt klar zu sein, ist die Ausgabe dieses Java -Code

Code: Select all

xī
ㄒㄧ
< /code>

Aber ich möchte, dass es nur < /p>

istxī

Wenden Sie ausschließlich die Java -Muster -Matcher an, um HTML -Elemente zu extrahieren, einige Zeichen zu ignorieren

Post a reply

Expand view Topic review: Wenden Sie ausschließlich die Java -Muster -Matcher an, um HTML -Elemente zu extrahieren, einige Zeichen zu ignorieren