Verarbeiten Sie eine große, getrennte Datei mit verschiedenen Python-Readern

Verarbeiten Sie eine große, getrennte Datei mit verschiedenen Python-Readern ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Verarbeiten Sie eine große, getrennte Datei mit verschiedenen Python-Readern

Post by Guest » 12 Jan 2025, 11:08

Ich möchte Textdateien verarbeiten, die mehrere Dokumente in unterschiedlichen Formaten enthalten. Die Dokumente werden durch drei Bindestriche getrennt, ähnlich wie in YAML.

Code: Select all

Example: Here we have some YAML code
PartOne: It is the first of three parts
---
Column1,Column2,Column3
The,second,part
is,a,CSV
---
[ "The third and last part",
"is some JSON"
]

Es gibt Python-Module zum einfachen Parsen aller Komponenten. Sie lesen normalerweise aus Dateiobjekten. Zunächst müssten die Komponenten also auseinandergenommen werden. Dies könnte erreicht werden, indem die gesamte Datei gelesen, die Komponenten aufgeteilt und dann erneut in StringIO verpackt werden, damit sie sich wie ein Dateiobjekt verhalten.

Code: Select all

import pathlib, io, yaml, csv, json
partone, parttwo, partthree = pathlib.Path("file").read_text().split("\n---\n")
print(yaml.load(io.StringIO(partone)))
print(tuple(csv.reader(io.StringIO(parttwo))))
print(json.load(io.StringIO(partthree)))

Dieser Ansatz erfordert jedoch das Lesen und Halten der gesamten Datei oder mindestens einer gesamten Komponente im Speicher. Dies ist insbesondere bei großen Bauteilen übertrieben. Deshalb suche ich nach einer Alternative, die die Datei im Streaming verarbeiten kann und dabei bei den Trennzeichen stoppt.
Optimalerweise würde ich mir einen Iterator von Dateiobjekten vorstellen, der der Reihe nach gelesen werden kann.

Code: Select all

with open("file") as file:
components = splitfile(file, "\n---\n")
print(yaml.load(next(components)))
print(tuple(csv.reader(next(components))))
print(json.load(next(components)))

Oder noch kompakter wäre ein wiederverwendbares Dateiobjekt, das jedes Trennzeichen als Zwischenende der Datei meldet.

Code: Select all

with splitfile(open("file"), "\n---\n") as file:
print(yaml.load(file))
print(tuple(csv.reader(file)))
print(json.load(file))

Ich habe darüber nachgedacht, Letzteres als Dateiobjekt-Wrapper zu implementieren. Die Handhabung aller Randfälle erwies sich jedoch als recht komplex – insbesondere, wenn ein Trennzeichen nur teilweise gelesen wird, z. B. wegen des size-Arguments für die Methoden read oder readline.
Gibt es eine Python-Bibliothek oder? Rezept, das mir helfen kann, eine solche Splitfile-Funktion zu erstellen?

1736676498

Guest

Ich möchte Textdateien verarbeiten, die mehrere Dokumente in unterschiedlichen Formaten enthalten. Die Dokumente werden durch drei Bindestriche getrennt, ähnlich wie in YAML.
[code]Example: Here we have some YAML code
PartOne: It is the first of three parts
---
Column1,Column2,Column3
The,second,part
is,a,CSV
---
[ "The third and last part",
"is some JSON"
]
[/code]
Es gibt Python-Module zum einfachen Parsen aller Komponenten. Sie lesen normalerweise aus Dateiobjekten. Zunächst müssten die Komponenten also auseinandergenommen werden. Dies könnte erreicht werden, indem die gesamte Datei gelesen, die Komponenten aufgeteilt und dann erneut in StringIO verpackt werden, damit sie sich wie ein Dateiobjekt verhalten.
[code]import pathlib, io, yaml, csv, json
partone, parttwo, partthree = pathlib.Path("file").read_text().split("\n---\n")
print(yaml.load(io.StringIO(partone)))
print(tuple(csv.reader(io.StringIO(parttwo))))
print(json.load(io.StringIO(partthree)))
[/code]
Dieser Ansatz erfordert jedoch das Lesen und Halten der gesamten Datei oder mindestens einer gesamten Komponente im Speicher. Dies ist insbesondere bei großen Bauteilen übertrieben. Deshalb suche ich nach einer Alternative, die die Datei im Streaming verarbeiten kann und dabei bei den Trennzeichen stoppt.
Optimalerweise würde ich mir einen Iterator von Dateiobjekten vorstellen, der der Reihe nach gelesen werden kann. 
[code]with open("file") as file:
components = splitfile(file, "\n---\n")
print(yaml.load(next(components)))
print(tuple(csv.reader(next(components))))
print(json.load(next(components)))
[/code]
Oder noch kompakter wäre ein wiederverwendbares Dateiobjekt, das jedes Trennzeichen als Zwischenende der Datei meldet.
[code]with splitfile(open("file"), "\n---\n") as file:
print(yaml.load(file))
print(tuple(csv.reader(file)))
print(json.load(file))
[/code]
Ich habe darüber nachgedacht, Letzteres als Dateiobjekt-Wrapper zu implementieren. Die Handhabung aller Randfälle erwies sich jedoch als recht komplex – insbesondere, wenn ein Trennzeichen nur teilweise gelesen wird, z. B. wegen des size-Arguments für die Methoden read oder readline.
Gibt es eine Python-Bibliothek oder? Rezept, das mir helfen kann, eine solche Splitfile-Funktion zu erstellen?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann ich eine große Datei über CSVParser verarbeiten?

Last post by Guest « 19 Jan 2025, 18:54
Posted in Java

by Guest » 19 Jan 2025, 18:54 » in Java

Ich habe eine große .csv-Datei (ca. 300 MB), die von einem Remote-Host gelesen und in eine Zieldatei geparst wird, aber ich muss nicht alle Zeilen in die Zieldatei kopieren . Beim Kopieren muss ich...

0 Replies

11 Views

Last post by Guest
19 Jan 2025, 18:54
Hinzufügen von Schlüssel zu einem HashMap aus zwei verschiedenen festgelegten Quellen mit zwei verschiedenen Funktionen

Last post by Anonymous « 13 Feb 2025, 17:36
Posted in Java

by Anonymous » 13 Feb 2025, 17:36 » in Java

Ich habe einen Set set1 und set set2 sowie 2 Funktionen getSet1ElementsCore (Zeichenfolge S) und getSet2ElementsCore (String) (Diese Rückgabezahlen) und alle Elemente aus beiden Sätzen in einen...

0 Replies

20 Views

Last post by Anonymous
13 Feb 2025, 17:36
So verarbeiten und aktualisieren Sie eine XML-Datei mit einem DOCTYPE in Python (Attribut ändern, Knoten hinzufügen usw.

Last post by Anonymous « 23 Dec 2024, 14:13
Posted in Python

by Anonymous » 23 Dec 2024, 14:13 » in Python

Ich habe einige XML-Dateien, die ich verarbeiten und deren Knoten/Attribute aktualisieren möchte. Ich habe einige Beispiele für Skripte, die das können, aber alle ändern ein wenig die XML-Struktur,...

0 Replies

20 Views

Last post by Anonymous
23 Dec 2024, 14:13
So verarbeiten und aktualisieren Sie eine XML-Datei mit einem DOCTYPE in Python (Attribut ändern, Knoten hinzufügen usw.

Last post by Guest « 24 Dec 2024, 21:59
Posted in Python

by Guest » 24 Dec 2024, 21:59 » in Python

Ich habe einige XML-Dateien, die ich verarbeiten und deren Knoten/Attribute aktualisieren möchte. Ich habe einige Beispiele für Skripte, die das können, aber alle ändern ein wenig die XML-Struktur,...

0 Replies

15 Views

Last post by Guest
24 Dec 2024, 21:59
Wie kann ich große PostgreSQL -Datensätze in Node.js ohne hohen Speicheraufwand effizient verarbeiten?

Last post by Anonymous « 23 Feb 2025, 16:08
Posted in JavaScript

by Anonymous » 23 Feb 2025, 16:08 » in JavaScript

Ich habe eine node.js -Anwendung, die mit einer PostgreSQL -Datenbank mit Millionen von Benutzern interagiert. Für eine bestimmte Funktion muss ich rund 100.000 Benutzer basierend auf einem Kriterium...

0 Replies

16 Views

Last post by Anonymous
23 Feb 2025, 16:08

Return to “Python”