Behandeln Sie ungültige Codierungssequenzen in CSV mit Polaren

Behandeln Sie ungültige Codierungssequenzen in CSV mit Polaren ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Behandeln Sie ungültige Codierungssequenzen in CSV mit Polaren

Report
Quote

Post by Guest » 25 Jan 2025, 14:17

Betrachten Sie den folgenden Snippet: < /p>

Code: Select all

from io import TextIOWrapper, BytesIO
import polars as pl
import pandas as pd

csv_str = (
b"spam,egg\n"
+ "spam,œuf\n".encode("cp1252")
+ "spam,αυγό\n".encode("utf8")
)
content = BytesIO(csv_str)
wrapped = TextIOWrapper(content, errors="replace")

try:
df = pl.read_csv(wrapped)
except Exception as e:
print("polars failed!")
print(e)

wrapped.seek(0)

try:
df = pd.read_csv(wrapped, sep=",")
except Exception as e:
print("pandas failed!")
print(e)

Sie haben dort eine ungültige CSV-Datei erhalten, die schlecht ist, mit zwei unterschiedlichen Kodierungen. Seltsamerweise ist dies immer noch ein reales Problem, und zwar ein zu häufiges.
Mit Pandas können Sie dies entweder über den TextIOWrapper oder das eingebaute Argument „encoding_errors“.
Fragen:

Warum funktioniert das nicht mit Polaren< /code>, wenn man bedenkt, dass der TextIOWrapper damit umgehen sollte Eingabe als Stream?
Gibt es eine Möglichkeit, dies nativ mit Polaren zu handhaben (ich meine eine andere Möglichkeit, als es mit Pandas zu lesen und es dann mit Polaren zu konvertieren). .from_pandas)?

1737811079

Guest

Betrachten Sie den folgenden Snippet: < /p>
[code]from io import TextIOWrapper, BytesIO
import polars as pl
import pandas as pd

csv_str = (
b"spam,egg\n"
+ "spam,œuf\n".encode("cp1252")
+ "spam,αυγό\n".encode("utf8")
)
content = BytesIO(csv_str)
wrapped = TextIOWrapper(content, errors="replace")

try:
df = pl.read_csv(wrapped)
except Exception as e:
print("polars failed!")
print(e)

wrapped.seek(0)

try:
df = pd.read_csv(wrapped, sep=",")
except Exception as e:
print("pandas failed!")
print(e)

[/code]
Sie haben dort eine ungültige CSV-Datei erhalten, die schlecht ist, mit zwei unterschiedlichen Kodierungen. Seltsamerweise ist dies immer noch ein reales Problem, und zwar ein zu häufiges.
Mit Pandas können Sie dies entweder über den TextIOWrapper oder das eingebaute Argument „encoding_errors“.
Fragen:
[list]
[*]Warum funktioniert das nicht mit Polaren< /code>, wenn man bedenkt, dass der TextIOWrapper damit umgehen sollte Eingabe als Stream?
[*]Gibt es eine Möglichkeit, dies nativ mit Polaren zu handhaben (ich meine eine andere Möglichkeit, als es mit Pandas zu lesen und es dann mit Polaren zu konvertieren). .from_pandas)?
[/list]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Beim Herunterladen/Öffnen einer CSV-Datei mit Google Chrome wird die Erweiterung der CSV-Datei in .xls geändert

Last post by Anonymous « 04 Nov 2025, 07:02
Posted in HTML

by Anonymous » 04 Nov 2025, 07:02 » in HTML

Ich habe ein A-Tag in meiner HTML-Datei, das auf eine .csv-Datei verweist. Jedes Mal, wenn ich auf den Link klicke, wird dieselbe Datei mit der Erweiterung .xls heruntergeladen. Warum?

Ich habe...

0 Replies

14 Views

Last post by Anonymous
04 Nov 2025, 07:02
Der Versuch, BeautifulSoup zu verwenden, um Yelp -Bewertungen zu kratzen und nach CSV zu exportieren, hat der CSV jedoch

Last post by Guest « 28 Jan 2025, 06:42
Posted in Python

by Guest » 28 Jan 2025, 06:42 » in Python

Ich versuche, 100 Bewertungen/Bewertungen in einem Yelp -Restaurant für eine Aufgabe mit BeautifulSoup zu kratzen. Ich suche speziell nach:
Bewertungskommentar
Bewertungs -ID
Bewertungsbewertung
Ich...

0 Replies

64 Views

Last post by Guest
28 Jan 2025, 06:42
Weigerte sich, das Skript 'https://cdnjs.cloudflare.com/ajax/libs/jquery-csv/0.71/jquery.csv-0.71.min.js' zu laden.

Last post by Anonymous « 13 Feb 2025, 23:03
Posted in C#

by Anonymous » 13 Feb 2025, 23:03 » in C#

net.Ich benutze JQuery, um einen Operation durchzuführen. Wenn ich meinen Code auf lokaler Bereitstellung bereitstellt, funktioniert er gut. Aber wenn ich meinen gleichen Code auf dem Live -Server...

0 Replies

50 Views

Last post by Anonymous
13 Feb 2025, 23:03
Wie trifft ein Typ einen CSV -Leser von csv.reader () zurück?

Last post by Anonymous « 20 May 2025, 16:50
Posted in Python

by Anonymous » 20 May 2025, 16:50 » in Python

Wie kann ein CSV -Leser von csv.reader ()?
angedeutet werden, wenn ich den Typ des Ergebniss in Python sehe, sehe ich:
>>> import csv
>>> with open('upt.csv', newline='') as csvfile:
... reader =...

0 Replies

43 Views

Last post by Anonymous
20 May 2025, 16:50
Wie trifft ein Typ einen CSV -Leser von csv.reader () zurück?

Last post by Anonymous « 21 May 2025, 13:57
Posted in Python

by Anonymous » 21 May 2025, 13:57 » in Python

Wie kann ein CSV -Leser von csv.reader ()?
angedeutet werden, wenn ich den Typ des Ergebniss in Python sehe, sehe ich:
>>> import csv
>>> with open('upt.csv', newline='') as csvfile:
... reader =...

0 Replies

30 Views

Last post by Anonymous
21 May 2025, 13:57

Return to “Python”