Parsen mit Python html.parser: Zugriff auf und Verwendung von Raw-TagsPython

Python-Programme
Anonymous
 Parsen mit Python html.parser: Zugriff auf und Verwendung von Raw-Tags

Post by Anonymous »

Ich bin kein Python-Spezialist, also haben Sie Geduld. Ich versuche, einen auf Perl HTML::TokeParser basierenden Parser, den ich für die Übersetzung von Vorlagen in Fremdsprachen verwende, durch Python html.parser zu ersetzen. Hier ist der Prototyp-Code, der mir fast das gibt, was ich will.

Code: Select all

import deepl
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):
result = ''
print('start ' + str(result))
for attr in attrs:
print("     attr:", attr)

def handle_endtag(self, tag):
result = ''
print('end ' + str(result))
#print("End tag  :", tag)

def handle_data(self, data):
self.translate_data(data)
#print("Data     :", data)
usw. usw. und

Code: Select all

deepl_client = deepl.DeepLClient(auth_key)

#Translate a formal document from English to French
input_path = "blabla"
output_path = "blabla"

parser = MyHTMLParser()

with open(input_path, 'r') as file:
content = file.read()
parser.feed(content)
Allerdings hätte ich gerne auch Zugriff auf den Roh-HTML-Code, während er durch den Feed geht, um ein erneutes Zusammensetzen der einfacheren oder nicht übersetzten Tags zu vermeiden.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post