Schrecklich langsam laden Pandas Data Frame mit 150 Spalten und 5 Millionen Zeilen in SQL Server

Schrecklich langsam laden Pandas Data Frame mit 150 Spalten und 5 Millionen Zeilen in SQL Server ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Schrecklich langsam laden Pandas Data Frame mit 150 Spalten und 5 Millionen Zeilen in SQL Server

Report
Quote

Post by Guest » 12 Feb 2025, 06:39

Ich versuche, Daten aus Pandas DataFrame mit 150 Spalten und 5 Millionen Zeilen zu laden. Auf meiner Maschine oder meiner prod -serverlosen Plattform dauert es 4 bis 5 Stunden, um in die SQL Server -Tabelle zu geladen. Wenn ich SSIS gleich benutze, brauchte die Datei nur 5 bis 8 Minuten, um zu laden. Kein Netzwerk oder kein E/A -Datenverkehr. 

Pandas to_sql 
< /li>
SQL Alchemy Insert () 
< /li>
< /ol>
Können Sie bitte die beste und schnelle Möglichkeit vorschlagen, Daten zu laden? 
Ich verwende

Treiber : ODBC 18 für SQL Server; UID: ; PWD : ; autoCommit = yes ; TrustedServercertificate = yes

", isolation_level =" autocommit ")
Fall 1 : pandas to_sql (dies dauert 4 bis 5 Stunden zum Laden)
Hier lade ich riesige Daten in DataFrame Chunk von Chunk

Code: Select all

data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=50000,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)
< /code>
[b] Laden Sie den Datenframe in SQL Server -Tabelle < /strong>

finaldata.to_sql('Table_Name',conn=engine.connect(),if_exists='append',index=False,chunk_size=50000)

unten funktioniert fein mit chunk_size = 10, aber ich habe Millionen von Datensätzen geladen. Mit Chunk_Size = 15+ gibt es unten Fehler 

pyodbc.Error:('07002','A07002] [Microsoft] [ODBC -Treiber 18 für SQL Server] [Zählfeld Falsch oder Syntaxfehler (0) (SQLEXECDIRECTW)]

Fall 3 [/b]: SQL -Alchemie -Insert () 
lade hier riesige Daten in Chunk -> DataFrame-> SQL Server -Tabelle mit SQL Alchemy Insert ()

Code: Select all

data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=10,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)

Laden Sie den Datenframe in die SQL -Server -Tabelle
mit der gleichen für Loop

Code: Select all

Session = sessionmaker(bind=engine)
session = Session()
data_to_insert = finaldata.to_dict(orient='records')
stmt = insert(table).values(data_to_insert)
session.execute(stmt)
session.commit()
session.close()

Wie laden Sie Daten schneller?

1739338756

Guest

Ich versuche, Daten aus Pandas DataFrame mit 150 Spalten und 5 Millionen Zeilen zu laden. Auf meiner Maschine oder meiner prod -serverlosen Plattform dauert es 4 bis 5 Stunden, um in die SQL Server -Tabelle zu geladen. Wenn ich SSIS gleich benutze, brauchte die Datei nur 5 bis 8 Minuten, um zu laden. Kein Netzwerk oder kein E/A -Datenverkehr. < /p>

  Pandas to_sql < /p>
< /li>
  SQL Alchemy Insert () < /p>
< /li>
< /ol>
Können Sie bitte die beste und schnelle Möglichkeit vorschlagen, Daten zu laden? < /p>
Ich verwende

[b] Treiber [/b]: ODBC 18 für SQL Server; UID:  [b]; PWD [/b]: ; autoCommit = yes ; TrustedServercertificate = yes

[b] ", isolation_level =" autocommit ")
 Fall 1 [/b]: pandas to_sql (dies dauert 4 bis 5 Stunden zum Laden) 
Hier lade ich riesige Daten in DataFrame Chunk von Chunk < /p>
[code]data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=50000,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)
< /code>
[b] Laden Sie den Datenframe in SQL Server -Tabelle < /strong>

finaldata.to_sql('Table_Name',conn=engine.connect(),if_exists='append',index=False,chunk_size=50000)[/code] 
unten funktioniert fein mit chunk_size = 10, aber ich habe Millionen von Datensätzen geladen. Mit Chunk_Size = 15+ gibt es unten Fehler < /p>

pyodbc.Error:('07002','A07002] [Microsoft] [ODBC -Treiber 18 für SQL Server] [Zählfeld Falsch oder Syntaxfehler (0) (SQLEXECDIRECTW)]

 Fall 3 [/b]: SQL -Alchemie -Insert () < /p>
lade hier riesige Daten in Chunk -> DataFrame-> SQL Server -Tabelle mit SQL Alchemy Insert () < /p>
[code]data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=10,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)
[/code]
[b] Laden Sie den Datenframe in die SQL -Server -Tabelle [/b] 
mit der gleichen für Loop 
[code]Session = sessionmaker(bind=engine)
session = Session()
data_to_insert = finaldata.to_dict(orient='records')
stmt = insert(table).values(data_to_insert)
session.execute(stmt)
session.commit()
session.close()
[/code]
Wie laden Sie Daten schneller?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Schrecklich langsam laden Pandas Data Frame mit 150 Spalten und 5 Millionen Zeilen in SQL Server

Last post by Anonymous « 12 Feb 2025, 04:38
Posted in Python

by Anonymous » 12 Feb 2025, 04:38 » in Python

Ich versuche, Daten aus Pandas DataFrame mit 150 Spalten und 5 Millionen Zeilen zu laden. Ab sofort dauert es 4 bis 5 Stunden, um in die SQL -Servertabelle zu laden.
Tabelle hat keine Indizes und es...

0 Replies

21 Views

Last post by Anonymous
12 Feb 2025, 04:38
Extrahieren Sie SQL Server Creating Table Query (DDL) in Pandas Data Frame

Last post by Guest « 08 Feb 2025, 04:24
Posted in Python

by Guest » 08 Feb 2025, 04:24 » in Python

Ich arbeite an einem Projekt, bei dem ich die Tabellenstruktur im SQL -Server in Snowflake replizieren muss. , wie wir bekommen, wenn wir eine DDL -Anweisung in der SQL Server -Konsole erstellen. Es...

0 Replies

26 Views

Last post by Guest
08 Feb 2025, 04:24
Fehler beim SQL Server-Datenimport (Microsoft SQL Data Management 21)

Last post by Anonymous « 10 Oct 2025, 11:16
Posted in MySql

by Anonymous » 10 Oct 2025, 11:16 » in MySql

Ich erhalte diese Fehlermeldung, wenn ich versuche, eine Excel-Datei auf meinen Server zu importieren. Bitte helfen Sie mir, dieses Problem zu beheben.
TITEL: SQL Server-Import- und Export-Assistent...

0 Replies

1088 Views

Last post by Anonymous
10 Oct 2025, 11:16
DataGridView -Zellenkopieren von Deadlocks, wenn Millionen von Zeilen vorhanden sind

Last post by Anonymous « 20 Mar 2025, 21:47
Posted in C#

by Anonymous » 20 Mar 2025, 21:47 » in C#

Ich begegne ein seltsames Problem mit meiner DataGridView. Ich bin ein DataTable mit 2+ Millionen Zeilen und 10-20 Spalten, die größtenteils gut funktionieren. Aber seltsamerweise, wenn ich den...

0 Replies

14 Views

Last post by Anonymous
20 Mar 2025, 21:47
Dash - Hochladen extrem groß .txt (3 Millionen Zeilen) mithilfe der Upload -Komponente

Last post by Anonymous « 07 Sep 2025, 22:32
Posted in Python

by Anonymous » 07 Sep 2025, 22:32 » in Python

Neu in Dash, haben Probleme beim Hochladen meiner .csv -Dateien mit dem hier verwendeten Standard -Beispielcode. Ich habe versucht, normale oder kleine Größe .TXT -Dateien hochzuladen und der Code...

0 Replies

4 Views

Last post by Anonymous
07 Sep 2025, 22:32

Return to “Python”