Visualisierung kategorialer Merkmale mit schwerwiegendem Klassenungleichgewicht für ML: Absolute Zählungen vs. normalisiPython

Python-Programme
Anonymous
 Visualisierung kategorialer Merkmale mit schwerwiegendem Klassenungleichgewicht für ML: Absolute Zählungen vs. normalisi

Post by Anonymous »

Ich führe eine explorative Datenanalyse (EDA) an einem medizinischen Datensatz (primäre biliäre Zirrhose) durch, um Merkmale für ein Klassifizierungsmodell mit mehreren Klassen auszuwählen. Meine Zielvariable ist Stadium (1, 2, 3, 4).
Das Problem: Mein Datensatz weist ein schweres Klassenungleichgewicht auf:
  • Stadium 1: ~12 Patienten (Minderheit)
  • Stadium 3: ~111 Patienten (Mehrheit)
Ich versuche, kategoriale Merkmale (z. B. Aszites: Ja/Nein) zu visualisieren, um zu sehen, ob sie gute Prädiktoren sind. Ich bin zwischen zwei Visualisierungsansätzen hin- und hergerissen:
Ansatz A: Absolute Zählungen (

Code: Select all

sns.countplot
)[/b] Dies zeigt die wahre Stichprobengröße. Da Stadium 3 jedoch so groß ist, dominieren seine Balken optisch die Darstellung, was es schwierig macht, die Prävalenz eines Symptoms über verschiedene Phasen hinweg zu vergleichen. Balken der Stufe 1 sind kaum sichtbar.
Ansatz B: Normalisierte Prozentsätze (

Code: Select all

sns.barplot
mit berechneten Requisiten)[/b] Ich berechne den Prozentsatz von Aszites=Ja innerhalb jeder Stufe. Dies zeigt deutlich, dass zum Beispiel 0 % der Stufe 1 Aszites haben, gegenüber 20 % der Stufe 4. Mein Anliegen: Dadurch wird die Wahrscheinlichkeit visualisiert (was das Modell will), aber es verbirgt die Tatsache, dass Stufe 1 auf einer sehr kleinen Stichprobengröße (n=12) beruht. Ein 100-%-Balken in Stufe 1 könnte nur 12 Personen darstellen.
Meine Frage: Gibt es im Zusammenhang mit der Funktionsauswahl für maschinelles Lernen eine standardmäßige Best Practice oder eine „goldene Regel“, um dies zu visualisieren? Sollte ich der Anzeige des Risikos/der Wahrscheinlichkeit (Prozentsätze) oder des Datenvolumens (Anzahl) Vorrang einräumen? Oder wird für die Berichterstattung ein hybrider Ansatz empfohlen?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post