Wie kann ich Python-Code für die Analyse eines großen Verkaufsdatensatzes optimieren?Python

Python-Programme
Anonymous
 Wie kann ich Python-Code für die Analyse eines großen Verkaufsdatensatzes optimieren?

Post by Anonymous »

Ich arbeite an einer Frage, bei der ich eine große Menge an in einer CSV-Datei gespeicherten Verkaufstransaktionen verarbeiten und die Ergebnisse zusammenfassen muss. Der Code läuft langsamer als erwartet und benötigt zu viel Zeit für die Ausführung, insbesondere wenn die Größe des Datensatzes zunimmt. Ich verwende Pandas zum Laden und Verarbeiten der Daten. Gibt es Optimierungen, die ich vornehmen kann, um die Rechenzeit zu verkürzen und die Ausgabe schneller zu erhalten? Hier ist der Code, den ich verwende:

Code: Select all

import pandas as pd
import numpy as np

# Sample dataset
n = 10**6  # million rows
np.random.seed(0)
transaction_ids = np.arange(1, n+1)
customer_ids = np.random.randint(100, 200, n)
sale_amounts = np.random.uniform(50, 500, n)
transaction_dates = pd.date_range('2023-01-01', periods=n, freq='T')

# DataFrame
df = pd.DataFrame({
'transaction_id': transaction_ids,
'customer_id': customer_ids,
'sale_amount': sale_amounts,
'transaction_date': transaction_dates
})

# Categorization function
def categorize_transaction(sale_amount):
if sale_amount > 400:
return 'High Value'
elif sale_amount > 200:
return 'Medium Value'
else:
return 'Low Value'

category_map = {
'High Value': (df['sale_amount'] > 400),
'Medium Value': (df['sale_amount'] > 200) & (df['sale_amount']

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post