Fehlerbehebung zufälliger Wälder Klassifizierer im Scikit lernen

Fehlerbehebung zufälliger Wälder Klassifizierer im Scikit lernen ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Fehlerbehebung zufälliger Wälder Klassifizierer im Scikit lernen

Post by Guest » 05 Feb 2025, 12:09

Ich versuche, den zufälligen Waldklassifizierer aus dem Sci -Kit -Lernen zu betreiben und misstrauisch schlechte Ausgabe zu erhalten - weniger als 1% der Vorhersagen sind korrekt. Das Modell leistet viel schlechter als Zufall. Ich bin relativ neu in Python, ML und Sci-Kit Learn (ein dreifacher Whammy), und meine Sorge ist, dass mir etwas Grundlegendes fehlt, anstatt die Parameter zu optimieren. Ich hoffe, dass mehr erfahrene Augen durch den Code schauen und sehen können, ob etwas mit dem Setup nicht stimmt. Eine Tabelle basierend auf Wortvorkommen - daher ist die Eingabe für jede Zeile ein Array, das darstellt, wie oft jedes Wort erscheint, z. [1 0 0 2 0 ... 1]. Ich verwende den CountVectorizer von Sci -Kit Learn für diese Verarbeitung - ich füttere es, die die Wörter in jeder Zeile enthalten, und es gibt das Wort Vorkommen Arrays aus. Wenn dieser Eingang aus irgendeinem Grund nicht geeignet ist, ist dies wahrscheinlich der Ort, an dem die Dinge schief gehen, aber ich habe noch nichts online oder in der Dokumentation gefunden, was darauf hindeutet, dass dies der Fall ist. < /P>

< P> Im Moment antwortet der Wald in etwa 0,5% der Fälle korrekt. Die Verwendung der gleichen Eingaben mit einem SGD -Klassifikator ergibt fast 80%, was mir darauf hindeutet, dass die Vorverarbeitung und die vektorisierende, die ich mache, in Ordnung ist - es ist etwas Spezifisches für den RF -Klassifikator. Meine erste Reaktion bestand darin, nach Überanpassung zu suchen, aber selbst wenn ich das Modell auf den Trainingsdaten ausführe, geht es immer noch fast alles falsch. < /P>

Ich habe mit der Anzahl der Bäume und der Anzahl der Trainingsdaten herumgespielt, aber das schien sich nicht viel für mich zu ändern. Ich versuche nur den relevanten Code zu zeigen, kann aber mehr posten, wenn das hilfreich ist. Erstens also posten Sie alle Gedanken und Feedback. < /P>

Code: Select all

#pull in package to create word occurence vectors for each line
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1,charset_error='ignore')
X_train = vectorizer.fit_transform(train_file)
#convert to dense array, the required input type for random forest classifier
X_train = X_train.todense()

#pull in random forest classifier and train on data
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators = 100, compute_importances=True)
clf = clf.fit(X_train, train_targets)

#transform the test data into the vector format
testdata = vectorizer.transform(test_file)
testdata = testdata.todense()

#export
with open('output.csv', 'wb') as csvfile:
spamwriter = csv.writer(csvfile)
for item in clf.predict(testdata):
spamwriter.writerow([item])

1738753791

Guest

Ich versuche, den zufälligen Waldklassifizierer aus dem Sci -Kit -Lernen zu betreiben und misstrauisch schlechte Ausgabe zu erhalten - weniger als 1% der Vorhersagen sind korrekt.  Das Modell leistet viel schlechter als Zufall.  Ich bin relativ neu in Python, ML und Sci-Kit Learn (ein dreifacher Whammy), und meine Sorge ist, dass mir etwas Grundlegendes fehlt, anstatt die Parameter zu optimieren. Ich hoffe, dass mehr erfahrene Augen durch den Code schauen und sehen können, ob etwas mit dem Setup nicht stimmt. Eine Tabelle basierend auf Wortvorkommen - daher ist die Eingabe für jede Zeile ein Array, das darstellt, wie oft jedes Wort erscheint, z. [1 0 0 2 0 ... 1].  Ich verwende den CountVectorizer von Sci -Kit Learn für diese Verarbeitung - ich füttere es, die die Wörter in jeder Zeile enthalten, und es gibt das Wort Vorkommen Arrays aus.  Wenn dieser Eingang aus irgendeinem Grund nicht geeignet ist, ist dies wahrscheinlich der Ort, an dem die Dinge schief gehen, aber ich habe noch nichts online oder in der Dokumentation gefunden, was darauf hindeutet, dass dies der Fall ist. < /P>

< P> Im Moment antwortet der Wald in etwa 0,5% der Fälle korrekt.  Die Verwendung der gleichen Eingaben mit einem SGD -Klassifikator ergibt fast 80%, was mir darauf hindeutet, dass die Vorverarbeitung und die vektorisierende, die ich mache, in Ordnung ist - es ist etwas Spezifisches für den RF -Klassifikator.  Meine erste Reaktion bestand darin, nach Überanpassung zu suchen, aber selbst wenn ich das Modell auf den  Trainingsdaten ausführe, geht es immer noch fast alles falsch. < /P>

Ich habe mit der Anzahl der Bäume und der Anzahl der Trainingsdaten herumgespielt, aber das schien sich nicht viel für mich zu ändern. Ich versuche nur den relevanten Code zu zeigen, kann aber mehr posten, wenn das hilfreich ist.  Erstens also posten Sie alle Gedanken und Feedback. < /P>

[code]#pull in package to create word occurence vectors for each line
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1,charset_error='ignore')
X_train = vectorizer.fit_transform(train_file)
#convert to dense array, the required input type for random forest classifier
X_train = X_train.todense()

#pull in random forest classifier and train on data
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators = 100, compute_importances=True)
clf = clf.fit(X_train, train_targets)

#transform the test data into the vector format
testdata = vectorizer.transform(test_file)
testdata = testdata.todense()

#export
with open('output.csv', 'wb') as csvfile:
spamwriter = csv.writer(csvfile)
for item in clf.predict(testdata):
spamwriter.writerow([item])
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Verwirrungsmatrix für die 10-fache Kreuzvalidierung im Scikit lernen

Last post by Guest « 09 Feb 2025, 11:50
Posted in Python

by Guest » 09 Feb 2025, 11:50 » in Python

Wie kann ich die Verwirrungsmatrix in 10-facher Kreuzvalidierung mit Scikit-Learn berechnen? Wie finde ich y_test und y_pred ?

0 Replies

10 Views

Last post by Guest
09 Feb 2025, 11:50
Zufälliger Datenverlust bei der Übermittlung von HTML-Webformularen mit PHP auf der Website

Last post by Anonymous « 23 Dec 2024, 13:55
Posted in Php

by Anonymous » 23 Dec 2024, 13:55 » in Php

Ich habe eine einfache Website, die mit HTML, CSS und JavaScript erstellt wurde. Es wird bei einem lokalen Cloud-Anbieter gehostet, wobei PHP die Backend-Vorgänge übernimmt. Die Website ist...

0 Replies

14 Views

Last post by Anonymous
23 Dec 2024, 13:55
Zufälliger unterer Rand, der nicht vorhanden sein sollte [Duplikat]

Last post by Guest « 12 Jan 2025, 07:36
Posted in HTML

by Guest » 12 Jan 2025, 07:36 » in HTML

Das ist mein HTML-Code:

rock paper scissors

rps-smiling.svg

und mein CSS:
body {
background-color: #c0c0c0;
}
#header {
display: flex;
justify-content: center;
border: #808080 4px...

0 Replies

23 Views

Last post by Guest
12 Jan 2025, 07:36
Zufälliger unterer Rand, der nicht vorhanden sein sollte [Duplikat]

Last post by Guest « 12 Jan 2025, 07:36
Posted in CSS

by Guest » 12 Jan 2025, 07:36 » in CSS

Das ist mein HTML-Code:

rock paper scissors

rps-smiling.svg

und mein CSS:
body {
background-color: #c0c0c0;
}
#header {
display: flex;
justify-content: center;
border: #808080 4px...

0 Replies

24 Views

Last post by Guest
12 Jan 2025, 07:36
So erstellen Sie den Datenrahmen zufälliger schwimmender Punktzahlen mit Pandas

Last post by Anonymous « 05 Feb 2025, 00:30
Posted in Python

by Anonymous » 05 Feb 2025, 00:30 » in Python

pd.DataFrame(np.random.randint(0,253,size=(253, 830)), columns=list_cols)

Ich habe dies verwendet, um zufällige Ganzzahlen zu erhalten, aber ich brauchte stattdessen schwimmende Punktzahlen....

0 Replies

12 Views

Last post by Anonymous
05 Feb 2025, 00:30

Return to “Python”