Parsen mit Python html.parser: Zugriff auf und Verwendung von Raw-Tags

Parsen mit Python html.parser: Zugriff auf und Verwendung von Raw-Tags ⇐ Python

1 post • Page 1 of 1

Anonymous

Parsen mit Python html.parser: Zugriff auf und Verwendung von Raw-Tags

Report
Quote

Post by Anonymous » 29 Oct 2025, 12:30

Ich bin kein Python-Spezialist, also haben Sie Geduld. Ich versuche, einen auf Perl HTML::TokeParser basierenden Parser, den ich für die Übersetzung von Vorlagen in Fremdsprachen verwende, durch Python html.parser zu ersetzen. Hier ist der Prototyp-Code, der mir fast das gibt, was ich will.

Code: Select all

import deepl
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):
result = ''
print('start ' + str(result))
for attr in attrs:
print("     attr:", attr)

def handle_endtag(self, tag):
result = ''
print('end ' + str(result))
#print("End tag  :", tag)

def handle_data(self, data):
self.translate_data(data)
#print("Data     :", data)

usw. usw. und

Code: Select all

deepl_client = deepl.DeepLClient(auth_key)

#Translate a formal document from English to French
input_path = "blabla"
output_path = "blabla"

parser = MyHTMLParser()

with open(input_path, 'r') as file:
content = file.read()
parser.feed(content)

Allerdings hätte ich gerne auch Zugriff auf den Roh-HTML-Code, während er durch den Feed geht, um ein erneutes Zusammensetzen der einfacheren oder nicht übersetzten Tags zu vermeiden.

1761737423

Anonymous

Ich bin kein Python-Spezialist, also haben Sie Geduld. Ich versuche, einen auf Perl HTML::TokeParser basierenden Parser, den ich für die Übersetzung von Vorlagen in Fremdsprachen verwende, durch Python html.parser zu ersetzen. Hier ist der Prototyp-Code, der mir fast das gibt, was ich will.
[code]import deepl
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):
result = ''
print('start ' + str(result))
for attr in attrs:
print("     attr:", attr)

def handle_endtag(self, tag):
result = ''
print('end ' + str(result))
#print("End tag  :", tag)

def handle_data(self, data):
self.translate_data(data)
#print("Data     :", data)
[/code]
usw. usw. und
[code]deepl_client = deepl.DeepLClient(auth_key)

#Translate a formal document from English to French
input_path = "blabla"
output_path = "blabla"

parser = MyHTMLParser()

with open(input_path, 'r') as file:
content = file.read()
parser.feed(content)
[/code]
Allerdings hätte ich gerne auch Zugriff auf den Roh-HTML-Code, während er durch den Feed geht, um ein erneutes Zusammensetzen der einfacheren oder nicht übersetzten Tags zu vermeiden.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Parsen mit Python html.parser: Zugriff auf und Verwendung von Raw-Tags

Last post by Anonymous « 29 Oct 2025, 12:30
Posted in HTML

by Anonymous » 29 Oct 2025, 12:30 » in HTML

Ich bin kein Python-Spezialist, also haben Sie Geduld. Ich versuche, einen auf Perl HTML::TokeParser basierenden Parser, den ich für die Übersetzung von Vorlagen in Fremdsprachen verwende, durch...

0 Replies

1 Views

Last post by Anonymous
29 Oct 2025, 12:30
Fehler an Parsen HTTP -Anforderungsheader Hinweis: Weitere Vorkommen von HTTP -Anfrage -Parsen -Fehlern werden auf Debug

Last post by Anonymous « 19 Aug 2025, 13:03
Posted in Java

by Anonymous » 19 Aug 2025, 13:03 » in Java

Verwenden von Spring Boot 3.5.4, ich stehe vor dem folgenden Problem. Meine Anfrage enthält arabische Zeichen im Abfrageparam, zum Beispiel: 2/أ . Alles funktioniert gut, wenn es keinen arabischen...

0 Replies

19 Views

Last post by Anonymous
19 Aug 2025, 13:03
Globale GTAGs können keine Tags erstellen und global können die Tags für Python Code nicht finden

Last post by Anonymous « 19 Aug 2025, 12:08
Posted in Python

by Anonymous » 19 Aug 2025, 12:08 » in Python

Ich verwende Ubuntu 22.04 und ich habe gesehen, dass es bereits Datei /etc/gtags/gtags.conf vom Ubuntu -Paket Global konfiguriert gibt. In der Konfigurationsdatei gibt es bereits die Konfigurationen...

0 Replies

15 Views

Last post by Anonymous
19 Aug 2025, 12:08
Wie behebe ich einen 403 Forbidden Error beim Scraping einer Website mit PHP Simple HTML DOM Parser?

Last post by Guest « 27 Dec 2024, 10:32
Posted in Php

by Guest » 27 Dec 2024, 10:32 » in Php

Ich versuche, mit dem PHP Simple HTML DOM Parser Daten von einer Website zu extrahieren. Allerdings erhalte ich jedes Mal, wenn ich versuche, den HTML-Inhalt der Seite abzurufen, den Fehler 403...

0 Replies

54 Views

Last post by Guest
27 Dec 2024, 10:32
SOAP-FEHLER: Parsen von WSDL: Laden von „xxx/?wsdl“ nicht möglich: Vorzeitiges Ende der Daten in Tag-HTML-Zeile 1

Last post by Anonymous « 12 Oct 2025, 18:08
Posted in Php

by Anonymous » 12 Oct 2025, 18:08 » in Php

Seit Tagen habe ich einen Fehler und keine Möglichkeit, eine Lösung zu finden, um das Problem zu beheben.

WSDLSOAP-ERROR: Parsing WSDL: Couldn't load from ' : Premature end of data in tag html line...

0 Replies

6 Views

Last post by Anonymous
12 Oct 2025, 18:08

Return to “Python”