by Anonymous » 26 Jun 2025, 22:38
Ich möchte ein Modell erstellen, das die Ticketauflösungzeit für Tickets für Datenwissenschaftsoftware prognostiziert. Ich habe die Wartezeit- und Auflösungszeit aus Ticketdaten mit Pandas berechnet, und jetzt möchte ich ein Modell erstellen, um zukünftige Auflösungszeiten vorherzusagen. Ich bin mir nicht sicher, welche Art von Modell- oder Vorverarbeitungsschritten ich verwenden sollte, um zuverlässige Zeitschätzungen zu erhalten. Genauigkeit. Fields
- Creation Date/Time:
Randomly assigned between January 3, 2022 and June 26, 2025.
- Excludes holidays (e.g., public Feiertage). /> Set 1–14 Tage Nach dem Erstellungsdatum/der Zeit.
- schließt auch Feiertage aus. Einzigartige < /strong>, deskriptive Software- /Datenwissenschaftsfragen. pipeline"
- "Slow API response for data query endpoint"
- "Task: Refactor ETL script for scalability"
- "Improve model accuracy for sentiment analysis"
< /ul>
Ticketeigenschaften < /h2>
- Priorität < /strong>: < /p>
Kategorien: niedrig, mittel, hoch, kritisch. hoch/kritisch . />
[*]
Tickettyp :
- Zu den Fehler, Merkmalsanforderung, Aufgabe, Verbesserung. /> Schweregrad < /strong>: < /p>
Ausgerichtet mit Priorität (z. B. kritisch → Blocker). Pool:
, mary_smith, dev_team_alpha, dev_team_beta, alice_jones, bob_lee
[*]Ticket Solved Von [/b]:
- Übereinstimmung Beauftragter für aufgelöste/geschlossene Tickets. />
, user_2 , client_x , client_y , client_z
[*] Kann sich mit der ausgestellten Person überlappen. Felder < /h2>
- Projekt /Modul < /strong>: < /p>
Zugewiesen an:
, ml_model , analytics_dashboard , Datenbank , api
[*] Basierend auf dem Ausgabetyp zugewiesen:
- , ML_Dev_Queue, UI_Dev_Queue
[*]Environment[/b]:
- Weighted toward Production for realism.
- Other options: Staging, Testing, Development
[*]
Arrival Source:
- Sources include: User-Reported, System Alert, Qa , intern
- Benutzer-gemeldet ist am häufigsten. />
Bereich: 2–16 Stunden
- reflektiert Aufgabenkomplexität und Umfang. />Examples:
"Updated model parameters"
- "Added new endpoint"
- "Refactored data ingestion pipeline"
Was ich ausprobiert habe: < /p>
Ich habe einen Datensatz mit über 100 Support -Tickets mit Feldern wie Ausgabetyp, Priorität, Warteschlangenzeit, Auflösungszeit und Gesamtzeit. Ich habe dies in einen Pandas -Datenfreame geladen und die Daten mithilfe von GroupBy und Ploting untersucht. Dann habe ich versucht, ein lineares Regressionsmodell zur Vorhersage der Auflösungszeit zu verwenden, aber die Ergebnisse waren nicht sehr genau. Ich hatte auch gehofft zu verstehen, welche Funktionen (z. B. Ausgabetyp, Priorität) den größten Einfluss auf die Auflösungszeit haben.
Ich möchte helfen, das Modell zu verbessern oder zu wissen, ob ein anderer Algorithmus (z. B. Xgboost, Randomforest oder Zeitreihenmodelle) besser geeignet ist.
[url=viewtopic.php?t=14917]Ich möchte[/url] ein Modell erstellen, das die Ticketauflösungzeit für Tickets für Datenwissenschaftsoftware prognostiziert. Ich habe die Wartezeit- und Auflösungszeit aus Ticketdaten mit Pandas berechnet, und jetzt möchte ich ein Modell erstellen, um zukünftige Auflösungszeiten vorherzusagen. Ich bin mir nicht sicher, welche Art von Modell- oder Vorverarbeitungsschritten ich verwenden sollte, um zuverlässige Zeitschätzungen zu erhalten. Genauigkeit. Fields
[list]
[*][b]Creation Date/Time[/b]:
Randomly assigned between [b]January 3, 2022[/b] and [b]June 26, 2025[/b].
[*][b]Excludes holidays[/b] (e.g., public Feiertage). /> Set 1–14 Tage Nach dem Erstellungsdatum/der Zeit.
[*] schließt auch Feiertage aus. [b] Einzigartige < /strong>, deskriptive Software- /Datenwissenschaftsfragen. pipeline"
[*]"Slow API response for data query endpoint"
[*]"Task: Refactor ETL script for scalability"
[*]"Improve model accuracy for sentiment analysis"
[/list]
< /ul>
Ticketeigenschaften < /h2>
[list]
[*] Priorität < /strong>: < /p>
Kategorien: niedrig, mittel, hoch, kritisch. hoch/kritisch [/b]. /> [/list]
[*] [b] Tickettyp [/b]:
[list]
Zu den Fehler, Merkmalsanforderung, Aufgabe, Verbesserung. /> [b] Schweregrad < /strong>: < /p>
Ausgerichtet mit Priorität (z. B. kritisch → Blocker). Pool:
[code]john_doe[/code], mary_smith, dev_team_alpha, dev_team_beta, alice_jones, bob_lee
[/list]
[*]Ticket Solved Von [/b]:
[list]
Übereinstimmung [b] Beauftragter [/b] für aufgelöste/geschlossene Tickets. />
[code]user_1[/code], user_2 , client_x , client_y , client_z
[/list]
[*] Kann sich mit der ausgestellten Person überlappen. Felder < /h2>
[list]
[b] Projekt /Modul < /strong>: < /p>
Zugewiesen an:
[code]Data_Pipeline[/code], ml_model , analytics_dashboard , Datenbank , api
[/list]
[*] Basierend auf dem Ausgabetyp zugewiesen:
[list]
[code]Backend_Dev_Queue[/code], ML_Dev_Queue, UI_Dev_Queue
[/list]
[*]Environment[/b]:
[list]
Weighted toward [b]Production[/b] for realism.
[*]Other options: Staging, Testing, Development
[/list]
[*][b]Arrival Source[/b]:
[list]
Sources include: User-Reported, System Alert, Qa , intern
[*] [b] Benutzer-gemeldet [/b] ist am häufigsten. />
Bereich: [b] 2–16 Stunden [/b]
[*] reflektiert Aufgabenkomplexität und Umfang. />Examples:
"Updated model parameters"
[*]"Added new endpoint"
[*]"Refactored data ingestion pipeline"
[/list]
Was ich ausprobiert habe: < /p>
Ich habe einen Datensatz mit über 100 Support -Tickets mit Feldern wie Ausgabetyp, Priorität, Warteschlangenzeit, Auflösungszeit und Gesamtzeit. Ich habe dies in einen Pandas -Datenfreame geladen und die Daten mithilfe von GroupBy und Ploting untersucht. Dann habe ich versucht, ein lineares Regressionsmodell zur Vorhersage der Auflösungszeit zu verwenden, aber die Ergebnisse waren nicht sehr genau. Ich hatte auch gehofft zu verstehen, welche Funktionen (z. B. Ausgabetyp, Priorität) den größten Einfluss auf die Auflösungszeit haben. [url=viewtopic.php?t=14917]Ich möchte[/url] helfen, das Modell zu verbessern oder zu wissen, ob ein anderer Algorithmus (z. B. Xgboost, Randomforest oder Zeitreihenmodelle) besser geeignet ist.