Ich führe eine explorative Datenanalyse (EDA) an einem medizinischen Datensatz (primäre biliäre Zirrhose) durch, um Merkmale für ein Klassifizierungsmodell mit mehreren Klassen auszuwählen. Meine Zielvariable ist Stadium (1, 2, 3, 4).
Das Problem: Mein Datensatz weist ein schweres
Klassenungleichgewicht auf:
- Stadium 1: ~12 Patienten (Minderheit)
- Stadium 3: ~111 Patienten (Mehrheit)
Ich versuche, kategoriale Merkmale (z. B. Aszites: Ja/Nein) zu visualisieren, um zu sehen, ob sie gute Prädiktoren sind. Ich bin zwischen zwei Visualisierungsansätzen hin- und hergerissen:
Ansatz A: Absolute Zählungen ()[/b] Dies zeigt die wahre Stichprobengröße. Da Stadium 3 jedoch so groß ist, dominieren seine Balken optisch die Darstellung, was es schwierig macht, die Prävalenz eines Symptoms über verschiedene Phasen hinweg zu vergleichen. Balken der Stufe 1 sind kaum sichtbar.
Ansatz B: Normalisierte Prozentsätze ( mit berechneten Requisiten)[/b] Ich berechne den Prozentsatz von Aszites=Ja innerhalb jeder Stufe. Dies zeigt deutlich, dass zum Beispiel 0 % der Stufe 1 Aszites haben, gegenüber 20 % der Stufe 4.
Mein Anliegen: Dadurch wird die Wahrscheinlichkeit visualisiert (was das Modell will), aber es verbirgt die Tatsache, dass Stufe 1 auf einer sehr kleinen Stichprobengröße (n=12) beruht. Ein 100-%-Balken in Stufe 1 könnte nur 12 Personen darstellen.
Meine Frage: Gibt es im Zusammenhang mit der Funktionsauswahl für maschinelles Lernen eine standardmäßige Best Practice oder eine „goldene Regel“, um dies zu visualisieren? Sollte ich der Anzeige des Risikos/der Wahrscheinlichkeit (Prozentsätze) oder des Datenvolumens (Anzahl) Vorrang einräumen? Oder wird für die Berichterstattung ein hybrider Ansatz empfohlen?