Wenden Sie ausschließlich die Java -Muster -Matcher an, um HTML -Elemente zu extrahieren, einige Zeichen zu ignorieren

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Wenden Sie ausschließlich die Java -Muster -Matcher an, um HTML -Elemente zu extrahieren, einige Zeichen zu ignorieren

by Anonymous » 19 Aug 2025, 12:13

Ich verwende diesen Code: < /p>

Code: Select all

Pattern pat_1 = Pattern.compile("class=\"\"pinyin\"\">(.*?)");
Matcher mat_1 = pat_1.matcher( text );
while( mat_1.find() )
{
System.out.println( mat_1.group(1) );
}
< /code>

Dies ist die Eingabedatenquelle mit Gewicht: < /p>



拼音:xīSetduyin('Duyin/xi1') 注音:ㄒㄧSetduyin('Duyin/xi1')

简体部首:丨 部首笔画:1 总笔画:8
繁体部首:卜 部首笔画:2 总笔画:8
康熙字典笔画( 卥:8; )
< /code>

Das [url=viewtopic.php?t=26065]Problem[/url] mit meinem Code besteht darin, dass es auch ㄒㄧ < /code> aufnimmt, da die vorhergehenden und Verfahrenselemente identisch sind. Wie könnte ich ㄒㄧ 
ausschließen und nur xī auswählen. Vielleicht kann ich das
-Tag verwenden, da dies etwas einzigartiges für das erste Mal ist, aber das erfordert die Identifizierung einer neuen Zeile und das Ignorieren von 拼音 : Wie geht es das? Ich habe mit regex101.com herumgespielt, aber ich konnte es noch nicht festhalten. < /p>

Um jetzt klar zu sein, ist die Ausgabe dieses Java -Code

Code: Select all

xī
ㄒㄧ
< /code>

Aber ich möchte, dass es nur < /p>

istxī

Top