Verschachtelte Cross-Validation-Beispiel für Scikit-Learn

Verschachtelte Cross-Validation-Beispiel für Scikit-Learn ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Verschachtelte Cross-Validation-Beispiel für Scikit-Learn

Report
Quote

Post by Anonymous » 28 Feb 2025, 07:05

Ich versuche, meinen Kopf im Beispiel von verschachtelten und nicht Nestnestnern in Sklearn zu arbeiten. Ich habe mehrere Antworten überprüft, aber ich bin immer noch verwirrt mit dem Beispiel. Aus einem Datensatz X erstellt der äußere 10-faltes CV (für den Einfachheit halber n = 10) 10 Trainingssätze und 10 Testsätze:

Code: Select all

(Tr0, Te0),..., (Tr0, Te9)

Dann ist das innere 10-CV-Aufteils Jedes äußeres Training in 10 Training und 10 Testsätze:

Code: Select all

From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)

Jetzt finden wir mit dem inneren Lebenslauf die besten Werte von c für jeden einzelnen äußeren Trainingssatz. Dies geschieht durch Testen aller möglichen Werte von c mit dem inneren Lebenslauf. Der Wert, der die höchste Leistung (z. B. Genauigkeit) liefert, wird für diesen speziellen äußeren Trainingssatz ausgewählt. Nachdem wir die besten c -Werte für jeden äußeren Trainingssatz entdeckt haben, können wir eine unvoreingenommene Genauigkeit unter Verwendung der äußeren Testsätze berechnen. Bei diesem Verfahren werden die Proben, die verwendet werden, um den besten Parameter (d. H. c ) zu identifizieren, nicht zur Berechnung der Leistung des Klassifikators. Daher haben wir eine völlig unvoreingenommene Validierung.inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores = clf.best_score_

# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores = nested_score.mean()
< /code>
Nach dem, was ich verstehe, berechnet der Code einfach die Bewertungen mit zwei verschiedenen Kreuzvalidationen (d. H. Verschiedene Spaltungen in das Training und den Testsatz). Beide verwendeten den gesamten Datensatz. Das gridcv identifiziert die besten Parameter mit einem (der beiden CVs), dann berechnet cross_val_score mit dem zweiten Lebenslauf die Leistung, wenn die besten Parameter verwendet werden. Was fehlt ich im Beispiel?

1740722745

Anonymous

Ich versuche, meinen Kopf im Beispiel von verschachtelten und nicht Nestnestnern in Sklearn zu arbeiten. Ich habe mehrere Antworten überprüft, aber ich bin immer noch verwirrt mit dem Beispiel. Aus einem Datensatz X erstellt der [b] äußere [/b] 10-faltes CV (für den Einfachheit halber n = 10) 10 Trainingssätze und 10 Testsätze: 
[code](Tr0, Te0),..., (Tr0, Te9)
[/code]
Dann ist das [b] innere [/b] 10-CV-Aufteils [b] Jedes [/b] äußeres Training in 10 Training und 10 Testsätze: 
[code]From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)
[/code]
Jetzt finden wir mit dem inneren Lebenslauf die besten Werte von  c  für jeden einzelnen äußeren Trainingssatz. Dies geschieht durch Testen aller möglichen Werte von  c  mit dem inneren Lebenslauf. Der Wert, der die höchste Leistung (z. B. Genauigkeit) liefert, wird für diesen speziellen äußeren Trainingssatz ausgewählt. Nachdem wir die besten  c  -Werte für jeden äußeren Trainingssatz entdeckt haben, können wir eine unvoreingenommene Genauigkeit unter Verwendung der äußeren Testsätze berechnen. Bei diesem Verfahren werden die Proben, die verwendet werden, um den besten Parameter (d. H.  c ) zu identifizieren, nicht zur Berechnung der Leistung des Klassifikators. Daher haben wir eine völlig unvoreingenommene Validierung.inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores[i] = clf.best_score_

# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores[i] = nested_score.mean()
< /code>
Nach dem, was ich verstehe, berechnet der Code einfach die Bewertungen mit zwei verschiedenen Kreuzvalidationen (d. H. Verschiedene Spaltungen in das Training und den Testsatz). Beide verwendeten den gesamten Datensatz. Das  gridcv  identifiziert die besten Parameter mit einem (der beiden CVs), dann berechnet  cross_val_score  mit dem zweiten Lebenslauf die Leistung, wenn die besten Parameter verwendet werden. Was fehlt ich im Beispiel?

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie verwende ich RFECV für die Feature-Auswahl in einer Scikit-Learn-Pipeline mit einem einfachen Entscheidungsbaum rich

Last post by Anonymous « 03 Apr 2025, 07:57
Posted in Python

by Anonymous » 03 Apr 2025, 07:57 » in Python

Ich arbeite am Kaggle House Price Price Prediction-Wettbewerb und habe eine Scikit-Learn-Pipeline gebaut, die:
Vorverarbeitung (Handhabung fehlender Werte, Skalierung, Codierung) Feature Engineering...

0 Replies

41 Views

Last post by Anonymous
03 Apr 2025, 07:57
Debugging Tensorboard und Scikit-Learn-Metriken für eine Verwirrungsmatrix

Last post by Anonymous « 15 May 2025, 21:18
Posted in Python

by Anonymous » 15 May 2025, 21:18 » in Python

Ich versuche einen 3D -CNN zu erstellen, der Bilder klassifiziert. In diesem Beispiel werden ungefähr 900 Bilder angezeigt und festgelegt, was 0 ist und was ist. Hier ist Teil der Ausgabe einer...

0 Replies

29 Views

Last post by Anonymous
15 May 2025, 21:18
Wie kann ich "E: Paket" Libatlas-dev "keinen Installationskandidaten haben", während Scipy für Scikit Learn installiert

Last post by Anonymous « 01 Jul 2025, 11:14
Posted in Python

by Anonymous » 01 Jul 2025, 11:14 » in Python

Wie kann ich dieses Problem beheben? Ich habe

gegebensudo apt-get install python-setuptools python-scipy libatlas-dev libatlas3-base

Um Scipy für die Installation von Scikit Learn zu...

0 Replies

29 Views

Last post by Anonymous
01 Jul 2025, 11:14
Scikit-Learn, erzwingen Sie teilweise Löser der kleinsten Quadrate, nur positive Ergebnisse zu berücksichtigen

Last post by Anonymous « 24 Feb 2025, 13:12
Posted in Python

by Anonymous » 24 Feb 2025, 13:12 » in Python

Ich verwende den Löser der teilweisen kleinsten Quadrate (PLS) zur Datenanalyse mehrerer überlagerter spektraler Signale. Manchmal bekomme ich einige der schwächeren Signale als negative Werte, die...

0 Replies

49 Views

Last post by Anonymous
24 Feb 2025, 13:12
Tokenisierungstext mit Scikit-Learn

Last post by Anonymous « 09 Mar 2025, 13:01
Posted in Python

by Anonymous » 09 Mar 2025, 13:01 » in Python

Ich habe den folgenden Code, um Funktionen aus einer Reihe von Dateien zu extrahieren (Ordnername ist der Kategorienname) für die Textklassifizierung.

import sklearn.datasets
from...

0 Replies

25 Views

Last post by Anonymous
09 Mar 2025, 13:01

Return to “Python”