Umgang mit systematisch fehlenden Werten in einem Datensatz für logistische Regression, LDA und baumbasierte Modelle

Umgang mit systematisch fehlenden Werten in einem Datensatz für logistische Regression, LDA und baumbasierte Modelle ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Umgang mit systematisch fehlenden Werten in einem Datensatz für logistische Regression, LDA und baumbasierte Modelle

Report
Quote

Post by Anonymous » 29 Dec 2024, 05:45

Ich arbeite an einem Projekt mit einem Datensatz, in dem ziemlich viele Werte fehlen – wirklich viele.
Hier ist die Ausgabe von colSums(is.na(dati_train)) , zeigt die Anzahl der fehlenden Werte pro Spalte an:

Code: Select all

> colSums(is.na(dati_train))   # Number of NAs per column
PAID      POINT_OF_SALE           EVENT_ID               YEAR
0                  0                  0                  0
MONTH    N_SUBSCRIPTIONS              PRICE       PHONE_NUMBER
0                  0                  0                  0
PROP_CONBINI       PAYMENT_TYPE          FAV_GENRE                AGE
0                  0                967               1723
DAYS_FROM_PROMO         BOOKS_PAID     N_TRANSACTIONS            N_ITEMS
0               5574               5574                  0
DATE_LAST_PURCHASE     CUSTOMER_SINCE               MAIL        SUBSCR_CANC
5574               5574                  0                  0
MARGIN
5574
>

Der Datensatz enthält rund 17.000 Beobachtungen, daher ist das Löschen von Zeilen mit fehlenden Werten keine Option. Hier ist mein aktueller Ansatz zum Umgang mit den fehlenden Werten, und ich würde mich über Ihr Feedback freuen:

Für „FAV_GENRE“ und „AGE“ : Da die Anzahl der fehlenden Werte relativ gering ist, denke ich darüber nach, sie durch Mehrfachimputation zu ergänzen.
< stark>Für die anderen Variablen: Die fehlenden Werte werden systematisch auf sie verteilt, so dachte ich von:
- Erstellen einer neuen binären Flag-Variablen, um anzuzeigen, ob der Wert fehlt oder nicht.
- Logistische Regression trainieren und LDA-Modelle, einschließlich dieser Flags als Features. Ich habe gelesen, dass dies eine gängige Praxis ist, aber ich habe es noch nie zuvor gemacht.
Verwendung baumbasierter Modelle wie Random Forest und XGBoost: Ich weiß, dass diese Modelle mit fehlenden Werten umgehen können, aber ich habe in diesen Algorithmen noch nie mit fehlenden Daten gearbeitet. Gibt es Best Practices, die ich befolgen sollte?

Da ich auch Vorhersagen für einen anderen Datensatz mit einem ähnlichen fehlenden Wert treffen muss Bei Mustern ist das einfache Entfernen fehlender Werte keine Option. Ist mein Ansatz sinnvoll? Gibt es in solchen Fällen bessere Alternativen?
Lassen Sie mich wissen, was Sie denken – vielen Dank im Voraus!

1735447504

Anonymous

Ich arbeite an einem Projekt mit einem Datensatz, in dem ziemlich viele Werte fehlen – wirklich viele.
Hier ist die Ausgabe von colSums(is.na(dati_train)) , zeigt die Anzahl der fehlenden Werte pro Spalte an:
[code]> colSums(is.na(dati_train))   # Number of NAs per column
PAID      POINT_OF_SALE           EVENT_ID               YEAR
0                  0                  0                  0
MONTH    N_SUBSCRIPTIONS              PRICE       PHONE_NUMBER
0                  0                  0                  0
PROP_CONBINI       PAYMENT_TYPE          FAV_GENRE                AGE
0                  0                967               1723
DAYS_FROM_PROMO         BOOKS_PAID     N_TRANSACTIONS            N_ITEMS
0               5574               5574                  0
DATE_LAST_PURCHASE     CUSTOMER_SINCE               MAIL        SUBSCR_CANC
5574               5574                  0                  0
MARGIN
5574
>
[/code]
Der Datensatz enthält rund 17.000 Beobachtungen, daher ist das Löschen von Zeilen mit fehlenden Werten keine Option. Hier ist mein aktueller Ansatz zum Umgang mit den fehlenden Werten, und ich würde mich über Ihr Feedback freuen:
[list]
[*][b]Für „FAV_GENRE“ und „AGE“ [/b]: Da die Anzahl der fehlenden Werte relativ gering ist, denke ich darüber nach, sie durch Mehrfachimputation zu ergänzen.

[*]< stark>Für die anderen Variablen: Die fehlenden Werte werden systematisch auf sie verteilt, so dachte ich von:
[list]
Erstellen einer neuen binären Flag-Variablen, um anzuzeigen, ob der Wert fehlt oder nicht.
[*]Logistische Regression trainieren und LDA-Modelle, einschließlich dieser Flags als Features. Ich habe gelesen, dass dies eine gängige Praxis ist, aber ich habe es noch nie zuvor gemacht.
[/list]

[*] [b]Verwendung baumbasierter Modelle wie Random Forest und XGBoost[/b]: Ich weiß, dass diese Modelle mit fehlenden Werten umgehen können, aber ich habe in diesen Algorithmen noch nie mit fehlenden Daten gearbeitet. Gibt es Best Practices, die ich befolgen sollte?

[/list]
Da ich auch Vorhersagen für einen anderen Datensatz mit einem ähnlichen fehlenden Wert treffen muss Bei Mustern ist das einfache Entfernen fehlender Werte keine Option. Ist mein Ansatz sinnvoll? Gibt es in solchen Fällen bessere Alternativen?
Lassen Sie mich wissen, was Sie denken – vielen Dank im Voraus!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie kann ich einen Datensatz Datensatz für Datensatz in einem Spring Batch Tasklet-Job beibehalten?

Last post by Anonymous « 24 Dec 2024, 04:17
Posted in Java

by Anonymous » 24 Dec 2024, 04:17 » in Java

Ich entwickle einen Spring Batch Tasklet-Job, der die folgenden Schritte ausführt:

Ruft Dateien aus einem Ordner ab.
Verarbeitet die Dateidatensätze.
Validiert jeden Datensatz.
Behält die Daten...

0 Replies

9 Views

Last post by Anonymous
24 Dec 2024, 04:17
Wie kann ich einen Datensatz Datensatz für Datensatz in einem Spring Batch Tasklet Job beibehalten?

Last post by Guest « 05 Jan 2025, 06:28
Posted in Java

by Guest » 05 Jan 2025, 06:28 » in Java

Ich entwickle einen Spring Batch Tasklet-Job, der die folgenden Schritte ausführt:

Ruft Dateien aus einem Ordner ab.
Verarbeitet die Dateidatensätze.
Validiert jeden Datensatz.
Behält die Daten...

0 Replies

10 Views

Last post by Guest
05 Jan 2025, 06:28
Wie verwende ich die symbolische Regression mit dem Pascalschen Dreieck?

Last post by Guest « 22 Dec 2024, 20:59
Posted in Python

by Guest » 22 Dec 2024, 20:59 » in Python

Ich habe die symbolische Regression ausprobiert und mich gefragt, wie ich damit beispielsweise eine Reihe des Pascalschen Dreiecks annähern kann. Ich erstelle die Daten mit:
import math

def...

0 Replies

16 Views

Last post by Guest
22 Dec 2024, 20:59
Wie verwende ich die symbolische Regression, um das Pascalsche Dreieck anzunähern?

Last post by Anonymous « 23 Dec 2024, 18:12
Posted in Python

by Anonymous » 23 Dec 2024, 18:12 » in Python

Ich habe die symbolische Regression ausprobiert und mich gefragt, wie ich damit beispielsweise eine Reihe des Pascalschen Dreiecks annähern kann. Ich erstelle die Daten mit:
import math

def...

0 Replies

14 Views

Last post by Anonymous
23 Dec 2024, 18:12
Regression neuronales Netzwerk - Die MSE kann nicht minimieren

Last post by Anonymous « 28 Feb 2025, 03:49
Posted in Python

by Anonymous » 28 Feb 2025, 03:49 » in Python

Ich kämpfe darum, die MSE für eine Regressionsbasis zu minimieren. Ich habe drei Eingänge und zwei Ausgänge. Aber ich komme leer. Die MSE ist nicht nahezu Null oder sogar weniger als 10. Sie könnte...

0 Replies

0 Views

Last post by Anonymous
28 Feb 2025, 03:49

Return to “Python”