Der richtige Umgang mit stark unausgeglichenen Daten ist die binäre KlassifizierungPython

Python-Programme
Guest
 Der richtige Umgang mit stark unausgeglichenen Daten ist die binäre Klassifizierung

Post by Guest »

Ich habe einen wirklich großen Datensatz mit 60 Millionen Zeilen und 11 Funktionen. Dieses Problem: < /p>
Erstens: Unterabtastung /Überabtastung. < /strong>

Ich habe auf diese Weise zwei Probleme /Fragen.
Wenn ich vor dem Zugtest auf der Auftest-Aufteilung Unterabtastung mache, verliere ich viele Daten. Nehmen wir an, die Häufigkeit eines gutartigen Tumors über bösartig), und da das Modell eingeschult und bewertet wird, funktioniert das Modell gut. Aber wenn ich irgendwann in der Zukunft mein Modell für neue Daten ausprobieren werde, wird es schlecht ausführen, da echte Daten nicht ausgleichet werden. Unterfit, weil es auf ausgeglichenen Daten trainiert wird, aber auf unausgewogene validiert/getestet wird. XBG, zufälliger Wald, logistische Regression?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post