Schematyp mit Polars Scan/Sink erzwingen

Schematyp mit Polars Scan/Sink erzwingen ⇐ Python

1 post • Page 1 of 1

Guest

Schematyp mit Polars Scan/Sink erzwingen

Post by Guest » 30 Dec 2024, 18:49

Ich habe eine große Anzahl von CSV-Dateien (~100.000), von denen einige selbst große CSV-Dateien sind (d. h. >128 GB), und ich versuche, sie in Parquet-Dateien zu konvertieren. Die Dateien enthalten eine Mischung aus Zeichen-, Zahlen- und Datumsdaten, die im CSV-Format gespeichert sind.
Ich habe aus zwei Gründen ein Problem beim Konvertieren: 1) wenn der Scan/Sink-Aufruf funktioniert Dateien sind etwa zehnmal so groß wie ihre CSV-Versionen; 2) Der Aufruf schlägt häufig fehl, weil das Vorhersageschema die Datentypen nicht ableiten kann.
Meine Frage lautet also: Wie kann ich den Scan/Sink-Aufruf dazu zwingen, nur Zeichendatentypen zu erstellen?
Mein Code lautet wie folgt:

Code: Select all

import os
import polars as pl

dir_list = os.listdir()

for filename in dir_list:
if ".txt" in filename: pl.scan_csv(filename,separator="|").sink_parquet(filename.replace(".txt",".parquet"),type_coercion=False,compression="zstd",compression_level=11)

Wenn dies ausgeführt wird und auf eine Spalte stößt, die ursprünglich wie ein Datentyp für einen Stapel aussieht, wird dieser Datentyp abgeleitet. Wenn der nächste Stapel jedoch etwas Inkonsistentes enthält, wird ein Fehler ausgegeben.
Angesichts der Dateigrößen kann ich nicht garantieren, dass jede Spalte immer denselben Datentyp hat. Daher möchte ich erzwingen, dass der Datentyp jeder Spalte ein Zeichen ist, und mich dann später mit problematischen Spalten befassen/zu numerischen/Datumstypen wechseln. Wie mache ich das?
Danke für jede Hilfe.
Grüße,
James

1735580981

Guest

Ich habe eine große Anzahl von CSV-Dateien (~100.000), von denen einige selbst große CSV-Dateien sind (d. h. >128 GB), und ich versuche, sie in Parquet-Dateien zu konvertieren.  Die Dateien enthalten eine Mischung aus Zeichen-, Zahlen- und Datumsdaten, die im CSV-Format gespeichert sind.
Ich habe aus zwei Gründen ein Problem beim Konvertieren: 1) wenn der Scan/Sink-Aufruf funktioniert Dateien sind etwa zehnmal so groß wie ihre CSV-Versionen; 2) Der Aufruf schlägt häufig fehl, weil das Vorhersageschema die Datentypen nicht ableiten kann.
Meine Frage lautet also: Wie kann ich den Scan/Sink-Aufruf dazu zwingen, nur Zeichendatentypen zu erstellen? 
Mein Code lautet wie folgt:
[code]import os
import polars as pl

dir_list = os.listdir()

for filename in dir_list:
if ".txt" in filename: pl.scan_csv(filename,separator="|").sink_parquet(filename.replace(".txt",".parquet"),type_coercion=False,compression="zstd",compression_level=11)
[/code]
Wenn dies ausgeführt wird und auf eine Spalte stößt, die ursprünglich wie ein Datentyp für einen Stapel aussieht, wird dieser Datentyp abgeleitet.  Wenn der nächste Stapel jedoch etwas Inkonsistentes enthält, wird ein Fehler ausgegeben.
Angesichts der Dateigrößen kann ich nicht garantieren, dass jede Spalte immer denselben Datentyp hat.  Daher möchte ich erzwingen, dass der Datentyp jeder Spalte ein Zeichen ist, und mich dann später mit problematischen Spalten befassen/zu numerischen/Datumstypen wechseln.  Wie mache ich das?
Danke für jede Hilfe.
Grüße,
James

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Schematyp mit Polars Scan/Sink erzwingen

Last post by Anonymous « 29 Dec 2024, 04:34
Posted in Python

by Anonymous » 29 Dec 2024, 04:34 » in Python

Ich habe eine große Anzahl von CSV-Dateien (~100.000), von denen einige selbst große CSV-Dateien sind (d. h. >128 GB), und ich versuche, sie in Parquet-Dateien zu konvertieren. Die Dateien enthalten...

0 Replies

11 Views

Last post by Anonymous
29 Dec 2024, 04:34
Ist die Zeilenreihenfolge bei der Verwendung von polars.scan_csv und polars.scan_parquet mit der Liste der Dateien garan

Last post by Anonymous « 11 Jul 2025, 17:45
Posted in Python

by Anonymous » 11 Jul 2025, 17:45 » in Python

Wenn ich eine Liste von Dateien habe, l = mit den Größen S1, S2, ..., Sn und ich erstelle einen df mit df = pl.scan_csv (l, ...) oder df = pl.Scan_Parquet (l, l. d.h. ?

0 Replies

0 Views

Last post by Anonymous
11 Jul 2025, 17:45
Was ist der Unterschied zwischen polars.collect_all und polars.lazyframe.collect

Last post by Anonymous « 17 Mar 2025, 14:26
Posted in Python

by Anonymous » 17 Mar 2025, 14:26 » in Python

Beginnend mit dem folgenden Beispiel:
import time
import numpy as np
import polars as pl

n_index = 1000
n_a = 10
n_b = 500
n_obs = 5000000

df = pl.DataFrame(
{
id : np.random.randint(0, n_index,...

0 Replies

15 Views

Last post by Anonymous
17 Mar 2025, 14:26
Reaktive Sink - Vermeiden Sie die Überlaufvorstellung

Last post by Anonymous « 08 May 2025, 13:34
Posted in Java

by Anonymous » 08 May 2025, 13:34 » in Java

Ich habe diese Spüle in meiner App konfiguriert:
createdSink = Sinks.many().multicast().onBackpressureBuffer(4096);

public void activityCreated(ActivityResource createdActivity) {
try {
var...

0 Replies

7 Views

Last post by Anonymous
08 May 2025, 13:34
Wie kann ich mit Java, JQuery oder JavaScript auf Scanner und Scan -Dokument zugreifen

Last post by Anonymous « 23 Feb 2025, 17:03
Posted in Java

by Anonymous » 23 Feb 2025, 17:03 » in Java

Wie kann ich mit Java, JQuery oder JavaScript auf Scanner und Scan -Dokument zugreifen. Bitte geben Sie mir eine Lösung. Während die Verwendung mit Chrome Version 42, wird die Java -Erweiterung nicht...

0 Replies

13 Views

Last post by Anonymous
23 Feb 2025, 17:03

Return to “Python”