Wie kann ich die Auflösung oder Warteschlangezeit mit historischen Tickerdaten in Python [geschlossen] prognostizieren,
Posted: 26 Jun 2025, 22:38
Ich möchte ein Modell erstellen, das die Ticketauflösungzeit für Tickets für Datenwissenschaftsoftware prognostiziert. Ich habe die Wartezeit- und Auflösungszeit aus Ticketdaten mit Pandas berechnet, und jetzt möchte ich ein Modell erstellen, um zukünftige Auflösungszeiten vorherzusagen. Ich bin mir nicht sicher, welche Art von Modell- oder Vorverarbeitungsschritten ich verwenden sollte, um zuverlässige Zeitschätzungen zu erhalten. Genauigkeit. Fields
< /ul>
Ticketeigenschaften < /h2>
[*]Ticket Solved Von [/b]:
[*] Basierend auf dem Ausgabetyp zugewiesen:
[*]Environment[/b]:
Was ich ausprobiert habe: < /p>
Ich habe einen Datensatz mit über 100 Support -Tickets mit Feldern wie Ausgabetyp, Priorität, Warteschlangenzeit, Auflösungszeit und Gesamtzeit. Ich habe dies in einen Pandas -Datenfreame geladen und die Daten mithilfe von GroupBy und Ploting untersucht. Dann habe ich versucht, ein lineares Regressionsmodell zur Vorhersage der Auflösungszeit zu verwenden, aber die Ergebnisse waren nicht sehr genau. Ich hatte auch gehofft zu verstehen, welche Funktionen (z. B. Ausgabetyp, Priorität) den größten Einfluss auf die Auflösungszeit haben. Ich möchte helfen, das Modell zu verbessern oder zu wissen, ob ein anderer Algorithmus (z. B. Xgboost, Randomforest oder Zeitreihenmodelle) besser geeignet ist.
- Creation Date/Time:
Randomly assigned between January 3, 2022 and June 26, 2025. - Excludes holidays (e.g., public Feiertage). /> Set 1–14 Tage Nach dem Erstellungsdatum/der Zeit.
- schließt auch Feiertage aus. Einzigartige < /strong>, deskriptive Software- /Datenwissenschaftsfragen. pipeline"
- "Slow API response for data query endpoint"
- "Task: Refactor ETL script for scalability"
- "Improve model accuracy for sentiment analysis"
< /ul>
Ticketeigenschaften < /h2>
- Priorität < /strong>: < /p>
Kategorien: niedrig, mittel, hoch, kritisch. hoch/kritisch . />
- Zu den Fehler, Merkmalsanforderung, Aufgabe, Verbesserung. /> Schweregrad < /strong>: < /p>
Ausgerichtet mit Priorität (z. B. kritisch → Blocker). Pool:
, mary_smith, dev_team_alpha, dev_team_beta, alice_jones, bob_leeCode: Select all
john_doe
[*]Ticket Solved Von [/b]:
- Übereinstimmung Beauftragter für aufgelöste/geschlossene Tickets. />
, user_2 , client_x , client_y , client_z
Code: Select all
user_1
- Projekt /Modul < /strong>: < /p>
Zugewiesen an:
, ml_model , analytics_dashboard , Datenbank , apiCode: Select all
Data_Pipeline
[*] Basierend auf dem Ausgabetyp zugewiesen:
- , ML_Dev_Queue, UI_Dev_Queue
Code: Select all
Backend_Dev_Queue
[*]Environment[/b]:
- Weighted toward Production for realism.
- Other options: Staging, Testing, Development
- Sources include: User-Reported, System Alert, Qa , intern
- Benutzer-gemeldet ist am häufigsten. />
Bereich: 2–16 Stunden - reflektiert Aufgabenkomplexität und Umfang. />Examples:
"Updated model parameters" - "Added new endpoint"
- "Refactored data ingestion pipeline"
Was ich ausprobiert habe: < /p>
Ich habe einen Datensatz mit über 100 Support -Tickets mit Feldern wie Ausgabetyp, Priorität, Warteschlangenzeit, Auflösungszeit und Gesamtzeit. Ich habe dies in einen Pandas -Datenfreame geladen und die Daten mithilfe von GroupBy und Ploting untersucht. Dann habe ich versucht, ein lineares Regressionsmodell zur Vorhersage der Auflösungszeit zu verwenden, aber die Ergebnisse waren nicht sehr genau. Ich hatte auch gehofft zu verstehen, welche Funktionen (z. B. Ausgabetyp, Priorität) den größten Einfluss auf die Auflösungszeit haben. Ich möchte helfen, das Modell zu verbessern oder zu wissen, ob ein anderer Algorithmus (z. B. Xgboost, Randomforest oder Zeitreihenmodelle) besser geeignet ist.