by Guest » 19 Jan 2025, 20:52
Ich habe folgende Textdaten in einer Textdatei. Der Text hat einige HTML-ähnliche Tags, aber nicht einheitlich, wie Sie im Beispiel sehen, es gibt mehrere Tags, es gibt nur ein gültiges Tag-Paar und ich möchte den Text zwischen den gültigen Tags extrahieren.
Basierend auf den bereitgestellten Kommentaren/Antworten möchte ich klarstellen, dass es keine verschachtelten Tags geben wird.
Code: Select all
text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''
Ich habe versucht, mit regulären Ausdrücken zu sehen, ob ich den Text aus einem gültigen Satz von Dokument-Tags extrahieren kann, aber ich erhalte den gesamten Inhalt der Datei, wenn ich sie ausdrucke.
Irgendwelche Gedanken?
Code: Select all
import re
with open('data.txt', 'r') as f:
text = f.read()
input = re.findall(r".*?", text, re.DOTALL)
for i in input :
print(i)
Ich habe folgende Textdaten in einer Textdatei. Der Text hat einige HTML-ähnliche Tags, aber nicht einheitlich, wie Sie im Beispiel sehen, es gibt mehrere Tags, es gibt nur ein gültiges Tag-Paar und ich möchte den Text zwischen den gültigen Tags extrahieren.
Basierend auf den bereitgestellten Kommentaren/Antworten möchte ich klarstellen, dass es keine verschachtelten Tags geben wird.
[code]text = '''
some text here additional text here The universe really seems to be expanding fast. Too fast, even. A new measurement confirms what previous—and highly debated—results had shown: The universe is expanding faster than predicted by theoretical models, and faster than can be explained by our current understanding of physics.
'''
[/code]
Ich habe versucht, mit regulären Ausdrücken zu sehen, ob ich den Text aus einem gültigen Satz von Dokument-Tags extrahieren kann, aber ich erhalte den gesamten Inhalt der Datei, wenn ich sie ausdrucke.
Irgendwelche Gedanken?
[code]import re
with open('data.txt', 'r') as f:
text = f.read()
input = re.findall(r".*?", text, re.DOTALL)
for i in input :
print(i)
[/code]