Programmiererforum

Posted: **19 Jan 2025, 20:52**

Ich habe folgende Textdaten in einer Textdatei. Der Text hat einige HTML-ähnliche Tags, aber nicht einheitlich, wie Sie im Beispiel sehen, es gibt mehrere Tags, es gibt nur ein gültiges Tag-Paar und ich möchte den Text zwischen den gültigen Tags extrahieren.
Basierend auf den bereitgestellten Kommentaren/Antworten möchte ich klarstellen, dass es keine verschachtelten Tags geben wird.

Code: Select all

text = '''
some text here  additional text here  The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''

Ich habe versucht, mit regulären Ausdrücken zu sehen, ob ich den Text aus einem gültigen Satz von Dokument-Tags extrahieren kann, aber ich erhalte den gesamten Inhalt der Datei, wenn ich sie ausdrucke.
Irgendwelche Gedanken?

Code: Select all

import re

with open('data.txt', 'r') as f:
text = f.read()

input = re.findall(r".*?", text, re.DOTALL)

for i in input :
print(i)

Programmiererforum

Wie wähle ich Daten aus gültigen HTML-Tags in Python aus?

Wie wähle ich Daten aus gültigen HTML-Tags in Python aus?