Wie verwende ich RFECV für die Feature-Auswahl in einer Scikit-Learn-Pipeline mit einem einfachen Entscheidungsbaum rich

Wie verwende ich RFECV für die Feature-Auswahl in einer Scikit-Learn-Pipeline mit einem einfachen Entscheidungsbaum rich ⇐ Python

1 post • Page 1 of 1

Anonymous

Wie verwende ich RFECV für die Feature-Auswahl in einer Scikit-Learn-Pipeline mit einem einfachen Entscheidungsbaum rich

Post by Anonymous » 03 Apr 2025, 07:57

Ich arbeite am Kaggle House Price Price Prediction-Wettbewerb und habe eine Scikit-Learn-Pipeline gebaut, die: < /p>
Vorverarbeitung (Handhabung fehlender Werte, Skalierung, Codierung) < /p> < /> Feature Engineering < /p>

Code: Select all

# Full pipeline
full_pipeline = Pipeline([
('preprocessor', preprocessor),  # Preprocessing pipeline
('feature_engineering', feature_engineer), # Feature engineering pipeline
('encoder', encoding_pipeline),  # Encoding pipeline
])

< /code>
Ich habe diese Pipeline mit einem Entscheidungsbaum-Basismodell mit einer 5-fachen Kreuzvalidierung getestet, um Datenlecks zu verhindern: < /p>
# Create DecisionTreeRegressor model
decision_tree = DecisionTreeRegressor(random_state=42)

# Create baseline decision tree pipeline
baseline_decision_tree_pipeline = Pipeline([
('preprocessing', full_pipeline),
('decision_tree', decision_tree)
])

# Define CV strategy
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Get CV RMSE scores
cv_scores = cross_val_score(baseline_decision_tree_pipeline,
X,  # Raw unprocessed data
y,  # Target
cv=kf,
scoring='neg_root_mean_squared_error',
n_jobs=-1)

print("CV RMSE scores:", -cv_scores)
print("Average CV RMSE:", (-cv_scores).mean())
< /code>
Ich möchte jetzt RFECV (rekursive Merkmalsimination mit Kreuzvalidierung) integrieren, um die besten Funktionen auszuwählen und gleichzeitig die Datenverletzung vor Verarbeitungsschritten wie die Imputation zu verhindern. Ich bin mir jedoch nicht sicher, ob der beste Ansatz:
[b] Option 1: RFECV innerhalb der Kreuzvalidationsschleife [/b] 
Wenn ich RFECV-RFECV-RFECV-RFECV-RFECV in der Pipeline verwende, dann für jedes der 5-fachlichen Aussagen. Falten? />   Fragen < /strong> < /p>

  Ist es richtig, RFECV in die Pipeline einzubeziehen? Dies stellt sicher, dass die Feature -Auswahl in jeder Falte erfolgt, aber wie extrahiere ich den endgültigen Satz optimaler Funktionen? Ich habe ein paar verschiedene Dinge versucht, kann aber nicht das bekommen, was ich suche. Bewertungen: < /li>
< /ul>
# Perform Recursive Feature Elimination with Cross-Validation
selector = RFECV(estimator=decision_tree, step=1, cv=kf, scoring="neg_root_mean_squared_error")

# Create baseline decision tree pipeline with feature selection
dt_pipeline = Pipeline([
('preprocessing', full_pipeline),
('feature_selection', selector),
('decision_tree', decision_tree)
])

cv_scores_rfecv = cross_val_score(
dt_pipeline,
X,  # Raw unprocessed data
y,  # Target
cv=kf,
scoring='neg_root_mean_squared_error',
n_jobs=-1
)

print("CV RMSE scores:", -cv_scores_rfecv)
print("Average CV RMSE:", (-cv_scores_rfecv).mean())

1743659844

Anonymous

Ich arbeite am Kaggle House Price Price Prediction-Wettbewerb und habe eine Scikit-Learn-Pipeline gebaut, die: < /p>
Vorverarbeitung (Handhabung fehlender Werte, Skalierung, Codierung) < /p> < />  Feature Engineering < /p>

[code]# Full pipeline
full_pipeline = Pipeline([
('preprocessor', preprocessor),  # Preprocessing pipeline
('feature_engineering', feature_engineer), # Feature engineering pipeline
('encoder', encoding_pipeline),  # Encoding pipeline
])

< /code>
Ich habe diese Pipeline mit einem Entscheidungsbaum-Basismodell mit einer 5-fachen Kreuzvalidierung getestet, um Datenlecks zu verhindern: < /p>
# Create DecisionTreeRegressor model
decision_tree = DecisionTreeRegressor(random_state=42)

# Create baseline decision tree pipeline
baseline_decision_tree_pipeline = Pipeline([
('preprocessing', full_pipeline),
('decision_tree', decision_tree)
])

# Define CV strategy
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Get CV RMSE scores
cv_scores = cross_val_score(baseline_decision_tree_pipeline,
X,  # Raw unprocessed data
y,  # Target
cv=kf,
scoring='neg_root_mean_squared_error',
n_jobs=-1)

print("CV RMSE scores:", -cv_scores)
print("Average CV RMSE:", (-cv_scores).mean())
< /code>
Ich möchte jetzt RFECV (rekursive Merkmalsimination mit Kreuzvalidierung) integrieren, um die besten Funktionen auszuwählen und gleichzeitig die Datenverletzung vor Verarbeitungsschritten wie die Imputation zu verhindern. Ich bin mir jedoch nicht sicher, ob der beste Ansatz:
[b] Option 1: RFECV innerhalb der Kreuzvalidationsschleife [/b] 
Wenn ich RFECV-RFECV-RFECV-RFECV-RFECV in der Pipeline verwende, dann für jedes der 5-fachlichen Aussagen. Falten? />   Fragen < /strong> < /p>

  Ist es richtig, RFECV in die Pipeline einzubeziehen? Dies stellt sicher, dass die Feature -Auswahl in jeder Falte erfolgt, aber wie extrahiere ich den endgültigen Satz optimaler Funktionen? Ich habe ein paar verschiedene Dinge versucht, kann aber nicht das bekommen, was ich suche. Bewertungen: < /li>
< /ul>
# Perform Recursive Feature Elimination with Cross-Validation
selector = RFECV(estimator=decision_tree, step=1, cv=kf, scoring="neg_root_mean_squared_error")

# Create baseline decision tree pipeline with feature selection
dt_pipeline = Pipeline([
('preprocessing', full_pipeline),
('feature_selection', selector),
('decision_tree', decision_tree)
])

cv_scores_rfecv = cross_val_score(
dt_pipeline,
X,  # Raw unprocessed data
y,  # Target
cv=kf,
scoring='neg_root_mean_squared_error',
n_jobs=-1
)

print("CV RMSE scores:", -cv_scores_rfecv)
print("Average CV RMSE:", (-cv_scores_rfecv).mean())
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Verschachtelte Cross-Validation-Beispiel für Scikit-Learn

Last post by Anonymous « 28 Feb 2025, 07:05
Posted in Python

by Anonymous » 28 Feb 2025, 07:05 » in Python

Ich versuche, meinen Kopf im Beispiel von verschachtelten und nicht Nestnestnern in Sklearn zu arbeiten. Ich habe mehrere Antworten überprüft, aber ich bin immer noch verwirrt mit dem Beispiel. Aus...

0 Replies

9 Views

Last post by Anonymous
28 Feb 2025, 07:05
Debugging Tensorboard und Scikit-Learn-Metriken für eine Verwirrungsmatrix

Last post by Anonymous « 15 May 2025, 21:18
Posted in Python

by Anonymous » 15 May 2025, 21:18 » in Python

Ich versuche einen 3D -CNN zu erstellen, der Bilder klassifiziert. In diesem Beispiel werden ungefähr 900 Bilder angezeigt und festgelegt, was 0 ist und was ist. Hier ist Teil der Ausgabe einer...

0 Replies

5 Views

Last post by Anonymous
15 May 2025, 21:18
So behalten Sie die Spaltenscheiben des Datenrahmens nach der Vorverarbeitung in Scikit-Learn

Last post by Anonymous « 20 Mar 2025, 14:25
Posted in Python

by Anonymous » 20 Mar 2025, 14:25 » in Python

Ich habe einen Pandas -Datenrahmen, der einige Zeilen und Spalten enthält. Jede Spalte hat einen Header. Solange ich in Pandas weiterhin Datenmanipulationsoperationen durchnehme, bleiben meine...

0 Replies

14 Views

Last post by Anonymous
20 Mar 2025, 14:25
Tokenisierungstext mit Scikit-Learn

Last post by Anonymous « 09 Mar 2025, 13:01
Posted in Python

by Anonymous » 09 Mar 2025, 13:01 » in Python

Ich habe den folgenden Code, um Funktionen aus einer Reihe von Dateien zu extrahieren (Ordnername ist der Kategorienname) für die Textklassifizierung.

import sklearn.datasets
from...

0 Replies

8 Views

Last post by Anonymous
09 Mar 2025, 13:01
Scikit-Learn, erzwingen Sie teilweise Löser der kleinsten Quadrate, nur positive Ergebnisse zu berücksichtigen

Last post by Anonymous « 24 Feb 2025, 13:12
Posted in Python

by Anonymous » 24 Feb 2025, 13:12 » in Python

Ich verwende den Löser der teilweisen kleinsten Quadrate (PLS) zur Datenanalyse mehrerer überlagerter spektraler Signale. Manchmal bekomme ich einige der schwächeren Signale als negative Werte, die...

0 Replies

14 Views

Last post by Anonymous
24 Feb 2025, 13:12

Return to “Python”