Ein POSIX-erweiterter Regex, der alle HTML-Tags (Start/Selbstklassen/Ende) aller void oder normalen Elemente entspricht

Ein POSIX-erweiterter Regex, der alle HTML-Tags (Start/Selbstklassen/Ende) aller void oder normalen Elemente entspricht ⇐ HTML

1 post • Page 1 of 1

Anonymous

Ein POSIX-erweiterter Regex, der alle HTML-Tags (Start/Selbstklassen/Ende) aller void oder normalen Elemente entspricht

Report
Quote

Post by Anonymous » 09 Apr 2025, 01:32

Obligatorische Aussage: Ich weiß, dass Parsing html mit einem Regex nicht zulagbar/unmöglich ist. Mein Problem ist anders: Ich möchte nur eine Regex, die alle Tags aus einer sehr begrenzten -Subset von HTML finden kann. Dies ist also eine vereinfachte Tokenisierung, die nicht analysiert wird. , , Elemente usw.).

Code: Select all

/\/]*)(=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/
< /code>
, aber es löst das Problem nicht, wenn Tags beliebige Fehler enthalten können. Zum Beispiel < /p>
echo '135' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/\/]*)(=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'

Drucke (Tag) 1 (Tag) 3 (Tag) 5 anstelle der korrekten Ausgabe (Tag) 0 (Tag) "> 1 (Tag) 2 (Tag)"> 3 (Tag) 4 (Tag) "> 5 5 . Versuchte die folgende Regex (Fall-unempfindlich): < /p>

Code: Select all

/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/
< /code>
Es gibt die richtigen Ergebnisse für fast alle Eingänge aus, die in der Praxis auftreten können, einschließlich Eingaben mit Fehlern. Zum Beispiel die Eingabe aus dieser Antwort: < /p>
echo '0&e link 3' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'

Drucke (Tag) 0 (Tag) 1 & amp (Tag) 2 < -> & E Link 3 (Tag) , was die erwartete Ausgabe ist.

Code: Select all

echo '23' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'

Drucke (Tag) 2 (Tag) 3 , was die erwartete Ausgabe ist. In einigen Fällen ist jedoch falsche Übereinstimmungen, da es die Logik nicht richtig codiert: nämlich kann die Rolle von U+003D Equals Sign nicht korrekt bestimmen, d. H. Ob = gehört zu Attributnamen (verbunden oder nicht verbunden mit Attributwert) oder verbindet den Attributnamen mit Attributname oder gehört zu den Wertmordnamen. Zum Beispiel < /p>

Code: Select all

echo '135' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'

Drucke (Tag) 1 (Tag) 3 (Tag) 4 (Tag) "> 5 anstelle der korrekten Ausgabe (Tag) 0 (Tag)"> 1 (Tag) 2 (Tag) 3 (Tag) 5 . Orte?>

1744155128

Anonymous

Obligatorische Aussage: Ich weiß, dass  Parsing  html mit einem Regex nicht zulagbar/unmöglich ist. Mein Problem ist anders: [url=viewtopic.php?t=14917]Ich möchte[/url] nur eine Regex, die alle  Tags  aus einer  sehr begrenzten  -Subset von HTML finden kann. Dies ist also eine vereinfachte Tokenisierung, die nicht analysiert wird.  ,  ,   Elemente usw.).[code]/\/]*)(=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/
< /code>
, aber es löst das Problem nicht, wenn Tags beliebige Fehler enthalten können. Zum Beispiel < /p>
echo '135' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/\/]*)(=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'
[/code]
Drucke (Tag) 1 (Tag) 3 (Tag) 5  anstelle der korrekten Ausgabe (Tag) 0 (Tag) "> 1 (Tag) 2 (Tag)"> 3 (Tag) 4 (Tag) "> 5 5 . Versuchte die folgende Regex (Fall-unempfindlich): < /p>
[code]/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/
< /code>
Es gibt die richtigen Ergebnisse für fast alle Eingänge aus, die in der Praxis auftreten können, einschließlich Eingaben mit Fehlern. Zum Beispiel die Eingabe aus dieser Antwort: < /p>
echo '0&e link 3' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'
[/code]
Drucke (Tag) 0 (Tag) 1 & amp (Tag) 2 < -> & E Link 3 (Tag) , was die erwartete Ausgabe ist.[code]echo '23' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'
[/code]
Drucke (Tag) 2 (Tag) 3 , was die erwartete Ausgabe ist. In einigen Fällen ist jedoch falsche Übereinstimmungen, da es die Logik nicht richtig codiert: nämlich kann die Rolle von U+003D Equals Sign  nicht korrekt bestimmen, d. H. Ob =  gehört zu Attributnamen (verbunden oder nicht verbunden mit Attributwert) oder verbindet den Attributnamen mit Attributname oder gehört zu den Wertmordnamen. Zum Beispiel < /p>
[code]echo '135' | LC_ALL=en_US.utf8 gawk 'BEGIN {IGNORECASE = 1}
{
s = gensub(/]*(>|$)|]*)(\s+[^[:space:]\/>]+\s*=\s*("[^"]*"|\047[^\047]*\047|[^[:space:]>]+)|[^>])*(>|$)/, "(tag)", "g", $0);
print(s)
}'
[/code]
Drucke (Tag) 1 (Tag) 3 (Tag) 4 (Tag) "> 5  anstelle der korrekten Ausgabe (Tag) 0 (Tag)"> 1 (Tag) 2 (Tag) 3 (Tag) 5 . Orte?>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Ungültige Konvertierung von "void*" in "void*(*) (void*)" c ++?

Last post by Anonymous « 18 Aug 2025, 19:15
Posted in C++

by Anonymous » 18 Aug 2025, 19:15 » in C++

Ich versuche, pThread_create () zu verwenden, aber es gibt mir immer diesen Fehler ungültiger Konvertierung von void* zu void* (*) (void*)

Dieser Fehler befindet sich im 3. Argument. Könnte mir...

0 Replies

30 Views

Last post by Anonymous
18 Aug 2025, 19:15
So trennen Sie einen normalen Ausgang oder einen normalen Ausführung eines Bash -Skripts

Last post by Anonymous « 11 May 2025, 23:36
Posted in Java

by Anonymous » 11 May 2025, 23:36 » in Java

Ich werde ein Bash -Skript von Java ausführen. Wie kann ich einen normalen Ausgang von einem fehlgeschlagen unterscheiden? Aber was ist, wenn das Skript Exit 1 oder Exit 255 nennt? Wenn Exit 127 ,...

0 Replies

24 Views

Last post by Anonymous
11 May 2025, 23:36
Wie erstelle ich STD :: ANTWORT , um Erfolg oder Ausnahme ohne zusätzliche Daten zu signalisieren?

Last post by Anonymous « 16 Mar 2025, 15:25
Posted in C++

by Anonymous » 16 Mar 2025, 15:25 » in C++

Ist es möglich, ein Objekt vom Typ unerwarteter für ein std :: erwartet ?
Hier ist ein einfaches Beispiel. #include

[ ]
std::expected do_logic() {
return std::unexpected();
}

Dies ist nicht...

0 Replies

46 Views

Last post by Anonymous
16 Mar 2025, 15:25
Welcher reguläre Ausdruck erhält alle Gruppenübereinstimmungen zwischen Start-Regex und End-Regex in Python?

Last post by Anonymous « 15 Oct 2025, 12:04
Posted in Python

by Anonymous » 15 Oct 2025, 12:04 » in Python

Ich versuche, alle Gruppenübereinstimmungen zwischen dem ersten Vorkommen einer Start-Regex und dem letzten Vorkommen einer End-Regex in Python abzurufen.

Hier ist ein (sehr vereinfachtes)...

0 Replies

53 Views

Last post by Anonymous
15 Oct 2025, 12:04
Ersetzen Sie alle -Tags, die das angegebene href-Attribut enthalten, durch Regex oder DOM

Last post by Anonymous « 10 Oct 2025, 07:13
Posted in Php

by Anonymous » 10 Oct 2025, 07:13 » in Php

Ich habe damit zu kämpfen. Die Idee besteht darin, alle -Tags zu ersetzen, die ein bestimmtes href-Attribut innerhalb einer bestimmten Zeichenfolge enthalten (die aus einem Puffer stammt und normales...

0 Replies

30 Views

Last post by Anonymous
10 Oct 2025, 07:13

Return to “HTML”