Tokenisierungstext mit Scikit-Learn

Tokenisierungstext mit Scikit-Learn ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Report
Quote

Post by Anonymous » 09 Mar 2025, 13:01

Ich habe den folgenden Code, um Funktionen aus einer Reihe von Dateien zu extrahieren (Ordnername ist der Kategorienname) für die Textklassifizierung. < /p>

Code: Select all

import sklearn.datasets
from sklearn.feature_extraction.text import TfidfVectorizer

train = sklearn.datasets.load_files('./train', description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
print len(train.data)
print train.target_names

vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train.data)
< /code>

Es wirft die folgende Stapelverfolgung aus: < /p>

Traceback (most recent call last):
File "C:\EclipseWorkspace\TextClassifier\main.py", line 16, in 
X_train = vectorizer.fit_transform(train.data)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 1285, in fit_transform
X = super(TfidfVectorizer, self).fit_transform(raw_documents)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 804, in fit_transform
self.fixed_vocabulary_)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 739, in _count_vocab
for feature in analyze(doc):
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 236, in 
tokenize(preprocess(self.decode(doc))), stop_words)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 113, in decode
doc = doc.decode(self.encoding, self.decode_error)
File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xff in position 32054: invalid start byte
< /code>

Ich reite Python 2.7 aus. Wie kann ich dies zum Laufen bringen? Gibt es eine Möglichkeit, sklearn.datasets.load_files ()

mit ANSI codieren?>

1741521705

Anonymous

Ich habe den folgenden Code, um Funktionen aus einer Reihe von Dateien zu extrahieren (Ordnername ist der Kategorienname) für die Textklassifizierung. < /p>

[code]import sklearn.datasets
from sklearn.feature_extraction.text import TfidfVectorizer

train = sklearn.datasets.load_files('./train', description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0)
print len(train.data)
print train.target_names

vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train.data)
< /code>

Es wirft die folgende Stapelverfolgung aus: < /p>

Traceback (most recent call last):
File "C:\EclipseWorkspace\TextClassifier\main.py", line 16, in 
X_train = vectorizer.fit_transform(train.data)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 1285, in fit_transform
X = super(TfidfVectorizer, self).fit_transform(raw_documents)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 804, in fit_transform
self.fixed_vocabulary_)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 739, in _count_vocab
for feature in analyze(doc):
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 236, in 
tokenize(preprocess(self.decode(doc))), stop_words)
File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 113, in decode
doc = doc.decode(self.encoding, self.decode_error)
File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xff in position 32054: invalid start byte
< /code>

Ich reite Python 2.7 aus. Wie kann ich dies zum Laufen bringen? Gibt es eine Möglichkeit, sklearn.datasets.load_files () [/code] mit ANSI  codieren?>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie verwende ich RFECV für die Feature-Auswahl in einer Scikit-Learn-Pipeline mit einem einfachen Entscheidungsbaum rich

Last post by Anonymous « 03 Apr 2025, 07:57
Posted in Python

by Anonymous » 03 Apr 2025, 07:57 » in Python

Ich arbeite am Kaggle House Price Price Prediction-Wettbewerb und habe eine Scikit-Learn-Pipeline gebaut, die:
Vorverarbeitung (Handhabung fehlender Werte, Skalierung, Codierung) Feature Engineering...

0 Replies

16 Views

Last post by Anonymous
03 Apr 2025, 07:57
Scikit-Learn, erzwingen Sie teilweise Löser der kleinsten Quadrate, nur positive Ergebnisse zu berücksichtigen

Last post by Anonymous « 24 Feb 2025, 13:12
Posted in Python

by Anonymous » 24 Feb 2025, 13:12 » in Python

Ich verwende den Löser der teilweisen kleinsten Quadrate (PLS) zur Datenanalyse mehrerer überlagerter spektraler Signale. Manchmal bekomme ich einige der schwächeren Signale als negative Werte, die...

0 Replies

25 Views

Last post by Anonymous
24 Feb 2025, 13:12
Verschachtelte Cross-Validation-Beispiel für Scikit-Learn

Last post by Anonymous « 28 Feb 2025, 07:05
Posted in Python

by Anonymous » 28 Feb 2025, 07:05 » in Python

Ich versuche, meinen Kopf im Beispiel von verschachtelten und nicht Nestnestnern in Sklearn zu arbeiten. Ich habe mehrere Antworten überprüft, aber ich bin immer noch verwirrt mit dem Beispiel. Aus...

0 Replies

18 Views

Last post by Anonymous
28 Feb 2025, 07:05
So behalten Sie die Spaltenscheiben des Datenrahmens nach der Vorverarbeitung in Scikit-Learn

Last post by Anonymous « 20 Mar 2025, 14:25
Posted in Python

by Anonymous » 20 Mar 2025, 14:25 » in Python

Ich habe einen Pandas -Datenrahmen, der einige Zeilen und Spalten enthält. Jede Spalte hat einen Header. Solange ich in Pandas weiterhin Datenmanipulationsoperationen durchnehme, bleiben meine...

0 Replies

17 Views

Last post by Anonymous
20 Mar 2025, 14:25
Schicht GroupShufflesplit in Scikit-Learn

Last post by Anonymous « 10 Apr 2025, 07:48
Posted in Python

by Anonymous » 10 Apr 2025, 07:48 » in Python

Ich möchte fragen, ob es möglich ist, geschichtet GroupSthufflesplit in Scikit-Learn durchzuführen, was mit anderen Worten eine Kombination aus GroupSplesplit und Streatified Shufflesplit

Hier ist...

0 Replies

17 Views

Last post by Anonymous
10 Apr 2025, 07:48

Return to “Python”