Ich muss die beliebtesten Ngrams aus Text bekommen. Die Ngrams -Länge muss zwischen 1 und 5 Wörtern liegen. < /p>
Ich weiß, wie man Bigrams und Trigramme bekommt. Zum Beispiel: < /p>
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = nltk.collocations.BigramCollocationFinder.from_words(words)
finder.apply_freq_filter(3)
finder.apply_word_filter(filter_stops)
matches1 = finder.nbest(bigram_measures.pmi, 20)
< /code>
Ich fand jedoch heraus, dass Scikit-Learn Ngrams mit unterschiedlicher Länge erhalten kann. Zum Beispiel kann ich NGRAMS mit Länge von 1 bis 5. < /p>
bekommenv = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5))
< /code>
Aber WordNgramanalyzer ist jetzt veraltet. Meine Frage ist: Wie kann ich n Bestes Wortkollokationen aus meinem Text erhalten, mit Kollokationslänge von 1 bis 5. Außerdem muss ich Freqlist dieser Kollokationen/ngrams erhalten.
Kann ich das mit nltk /scikit machen? Ich muss Kombinationen von Ngrams mit verschiedenen Längen aus einem Text bekommen? < /p>
Zum Beispiel verwenden NLTK-Bigrams und Trigramme, in denen viele Situationen, in denen meine Trigramme meine Bitgrams oder meine Trigramme gehören, Teil von größeren 4-Grammen sind. Zum Beispiel:
Bitgrams: Hallo, mein
Trigramme: Hallo, mein Name < Br />
Ich weiß, wie man Bigrams von Trigramme ausschließt, aber ich brauche bessere Lösungen. < /p>
Pythonliste von Ngrams mit Frequenzen ⇐ Python
-
- Similar Topics
- Replies
- Views
- Last post
-
-
So einchecken Sie eine Reihe von .wav -Dateien nach bestimmten Frequenzen ein
by Anonymous » » in Python - 0 Replies
- 7 Views
-
Last post by Anonymous
-