Wie wähle ich Daten aus gültigen HTML-Tags in Python aus?
Posted: 19 Jan 2025, 20:52
Ich habe folgende Textdaten in einer Textdatei. Der Text hat einige HTML-ähnliche Tags, aber nicht einheitlich, wie Sie im Beispiel sehen, es gibt mehrere Tags, es gibt nur ein gültiges Tag-Paar und ich möchte den Text zwischen den gültigen Tags extrahieren.
Basierend auf den bereitgestellten Kommentaren/Antworten möchte ich klarstellen, dass es keine verschachtelten Tags geben wird.
Ich habe versucht, mit regulären Ausdrücken zu sehen, ob ich den Text aus einem gültigen Satz von Dokument-Tags extrahieren kann, aber ich erhalte den gesamten Inhalt der Datei, wenn ich sie ausdrucke.
Irgendwelche Gedanken?
Basierend auf den bereitgestellten Kommentaren/Antworten möchte ich klarstellen, dass es keine verschachtelten Tags geben wird.
Code: Select all
text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''
Irgendwelche Gedanken?
Code: Select all
import re
with open('data.txt', 'r') as f:
text = f.read()
input = re.findall(r".*?", text, re.DOTALL)
for i in input :
print(i)