Langsame Datenmigration von Snowflake zu MySQL in Python mit SQlAlchemy [Duplikat]

Langsame Datenmigration von Snowflake zu MySQL in Python mit SQlAlchemy [Duplikat] ⇐ MySql

1 post • Page 1 of 1

Guest

Langsame Datenmigration von Snowflake zu MySQL in Python mit SQlAlchemy [Duplikat]

Post by Guest » 13 Jan 2025, 06:44

Ich habe also eine große Datenmenge in Snowflake, von der ich gerne eine Kopie auf einem vorhandenen MySQL-Server behalten würde. Ich habe dieses Skript erstellt. Ich möchte nur eine Kopie der Daten in MySQL behalten, nicht für die Verwendung in der Entwicklung oder Produktion, sondern nur eine Kopie behalten.

Code: Select all

from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd
import time

snowflake_engine = create_engine(
'snowflake://{user}:{password}@{account}/{database_name}/{schema_name}?warehouse={warehouse_name}'.format(
user='XXXXXX',
password='XXXXXX',
account='XXXX-XXXXX',
warehouse_name='WAREHOUSE',
database_name='XXXXX',
schema_name='XXXXX'
)
)

mysql_engine = create_engine('mysql+mysqlconnector://XXXXX:XXXXXX@XXXXX.amazonaws.com:3306/XXXXXXX')

schema = 'XXXXXXX'
table_name = ''

# Fetch data in chunks and append to MySQL
chunk_size = 2500
try:
snowflake_connection = snowflake_engine.connect()
mysql_connection = mysql_engine.connect()

# Query to fetch table names
query = f"SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_SCHEMA='{schema}'"
print(f"Fetching table names from schema: {schema}...")
tables_df = pd.read_sql(text(query), snowflake_connection)
total_tables = len(tables_df)

# Iterate through each table
for index, row in tables_df.iterrows():
table_name = row['table_name']
print(f"Fetching data from table: {table_name}...")

#fetch entire table data in chunks
offset = 0
while True:
#fetch the chunk of data
table_query = f"SELECT * FROM {table_name} LIMIT {chunk_size} OFFSET {offset}"
df = pd.read_sql(text(table_query), snowflake_connection)

if not df.empty:
# Save the dataframe to MySQL database in chunks
df.to_sql(table_name, con=mysql_engine, if_exists='append', index=False)
print(f"Processed chunk for table {table_name}, offset {offset}")

# Move the offset to fetch the next chunk
offset += chunk_size
else:
break  # Exit the loop when no more rows are returned

print(f"Table {index+1} of {total_tables} has been processed")

finally:
snowflake_connection.close()
snowflake_engine.dispose()
mysql_connection.close()
mysql_engine.dispose()

Es funktioniert. Das Problem ist, dass die Datenübertragung sehr langsam ist. Die Verarbeitung einer einzelnen Charge dauert mindestens 5 Minuten. Vor dem Hinzufügen von Batch-Abfragen wurde diese Fehlermeldung angezeigt und das Skript wurde beendet.

Code: Select all

Killed

Jetzt erhalte ich Folgendes, nachdem das Skript den ganzen Tag lang ausgeführt wurde:

Code: Select all

sqlalchemy.exc.ProgrammingError: (snowflake.connector.errors.ProgrammingError) 000629 (57014): Warehouse 'WAREHOUSE' was suspended immediate by resource monitor 'RESOURCEMONITOR', statement aborted.
[SQL: SELECT * FROM XXXXXXXXX LIMIT 2500 OFFSET 1047500]
(Background on this error at: https://sqlalche.me/e/20/f405)

Wie ändere ich dieses Skript, um Daten problemlos zu migrieren? Bitte schlagen Sie einige Änderungen vor, die ich vornehmen kann.
Es gibt insgesamt 115 Tabellen und mindestens 40 % davon enthalten über eine Million Zeilen.

1736747048

Guest

Ich habe also eine große Datenmenge in Snowflake, von der ich gerne eine Kopie auf einem vorhandenen MySQL-Server behalten würde. Ich habe dieses Skript erstellt. Ich möchte nur eine Kopie der Daten in MySQL behalten, nicht für die Verwendung in der Entwicklung oder Produktion, sondern nur eine Kopie behalten.
[code]from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd
import time

snowflake_engine = create_engine(
'snowflake://{user}:{password}@{account}/{database_name}/{schema_name}?warehouse={warehouse_name}'.format(
user='XXXXXX',
password='XXXXXX',
account='XXXX-XXXXX',
warehouse_name='WAREHOUSE',
database_name='XXXXX',
schema_name='XXXXX'
)
)

mysql_engine = create_engine('mysql+mysqlconnector://XXXXX:XXXXXX@XXXXX.amazonaws.com:3306/XXXXXXX')

schema = 'XXXXXXX'
table_name = ''

# Fetch data in chunks and append to MySQL
chunk_size = 2500
try:
snowflake_connection = snowflake_engine.connect()
mysql_connection = mysql_engine.connect()

# Query to fetch table names
query = f"SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_SCHEMA='{schema}'"
print(f"Fetching table names from schema: {schema}...")
tables_df = pd.read_sql(text(query), snowflake_connection)
total_tables = len(tables_df)

# Iterate through each table
for index, row in tables_df.iterrows():
table_name = row['table_name']
print(f"Fetching data from table: {table_name}...")

#fetch entire table data in chunks
offset = 0
while True:
#fetch the chunk of data
table_query = f"SELECT * FROM {table_name} LIMIT {chunk_size} OFFSET {offset}"
df = pd.read_sql(text(table_query), snowflake_connection)

if not df.empty:
# Save the dataframe to MySQL database in chunks
df.to_sql(table_name, con=mysql_engine, if_exists='append', index=False)
print(f"Processed chunk for table {table_name}, offset {offset}")

# Move the offset to fetch the next chunk
offset += chunk_size
else:
break  # Exit the loop when no more rows are returned

print(f"Table {index+1} of {total_tables} has been processed")

finally:
snowflake_connection.close()
snowflake_engine.dispose()
mysql_connection.close()
mysql_engine.dispose()
[/code]
Es funktioniert. Das Problem ist, dass die Datenübertragung sehr langsam ist. Die Verarbeitung einer einzelnen Charge dauert mindestens 5 Minuten. Vor dem Hinzufügen von Batch-Abfragen wurde diese Fehlermeldung angezeigt und das Skript wurde beendet.
[code]Killed
[/code]
Jetzt erhalte ich Folgendes, nachdem das Skript den ganzen Tag lang ausgeführt wurde:
[code]sqlalchemy.exc.ProgrammingError: (snowflake.connector.errors.ProgrammingError) 000629 (57014): Warehouse 'WAREHOUSE' was suspended immediate by resource monitor 'RESOURCEMONITOR', statement aborted.
[SQL: SELECT * FROM XXXXXXXXX LIMIT 2500 OFFSET 1047500]
(Background on this error at: https://sqlalche.me/e/20/f405)
[/code]
Wie ändere ich dieses Skript, um Daten problemlos zu migrieren? Bitte schlagen Sie einige Änderungen vor, die ich vornehmen kann.
Es gibt insgesamt 115 Tabellen und mindestens 40 % davon enthalten über eine Million Zeilen.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Speicheraufwand beim Verwenden von SQL/Snowflake -Steckern

Last post by Anonymous « 03 Jun 2025, 09:21
Posted in Python

by Anonymous » 03 Jun 2025, 09:21 » in Python

Ich versuche, eine SQL -Abfrage zu laden, und versuche, Daten aus einer Snowflake -Datenbank in einen Datenrahmen zu extrahieren (zum Tensor von Torch, aber die Konvertierung findet später statt)....

0 Replies

0 Views

Last post by Anonymous
03 Jun 2025, 09:21
Gibt es eine Möglichkeit, eine JSON-Datei aus einer API-Anfrage mithilfe einer UDF in einer Tabelle in Snowflake zu spei

Last post by Guest « 31 Dec 2024, 15:36
Posted in Python

by Guest » 31 Dec 2024, 15:36 » in Python

Ich versuche, eine JSON-Datei, die ich von einer API-Anfrage erhalte, als Snowflake-Tabelle zu speichern
Ich habe eine UDF erstellt und kann die Antwortdaten abrufen Über die API habe ich versucht,...

0 Replies

26 Views

Last post by Guest
31 Dec 2024, 15:36
So beheben Sie das Problem mit SQLalchemy -Verbindung: 'Verbindungsinformationen im SQLALCHEMY -Format' bei der Verbindu

Last post by Anonymous « 28 Mar 2025, 14:01
Posted in Python

by Anonymous » 28 Mar 2025, 14:01 » in Python

Ich habe also versucht, eine Verbindung zum IBM DB2 -Server herzustellen, das in den letzten Tagen auf IBM Cloud gehostet wurde, und habe es geschafft, mit den bereitgestellten Anmeldeinformationen...

0 Replies

27 Views

Last post by Anonymous
28 Mar 2025, 14:01
Langsame Antwort auf die HTTPS -Anforderung [Duplikat]

Last post by Anonymous « 16 Apr 2025, 06:05
Posted in Java

by Anonymous » 16 Apr 2025, 06:05 » in Java

Als wir HTTP in HTTPS verlegt haben, beobachten wir, dass Streaming-Datenantwort nach einer Verzögerung erfolgt. So reparieren Sie von meiner Seite mithilfe der Java-HTTP-Verbindung....

0 Replies

10 Views

Last post by Anonymous
16 Apr 2025, 06:05
Flask SQLALCHEMY MYSQL -Verbindungsproblem - Problem mit Konnektivität und Verbindungszeichenfolge

Last post by Anonymous « 09 Mar 2025, 14:08
Posted in Python

by Anonymous » 09 Mar 2025, 14:08 » in Python

Ich entwickle eine Flask-Anwendung mit Flask-SQLAlchemy und MySQL, aber ich habe Probleme mit der Datenbankkonnektivität und bildet korrekt die Verbindungszeichenfolge. /> Datenbank: MySQL (Lokal...

0 Replies

15 Views

Last post by Anonymous
09 Mar 2025, 14:08

Return to “MySql”