Pythonliste von Ngrams mit FrequenzenPython

Python-Programme
Guest
 Pythonliste von Ngrams mit Frequenzen

Post by Guest »

Ich muss die beliebtesten Ngrams aus Text bekommen. Die Ngrams -Länge muss zwischen 1 und 5 Wörtern liegen. < /p>

Ich weiß, wie man Bigrams und Trigramme bekommt. Zum Beispiel: < /p>

bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = nltk.collocations.BigramCollocationFinder.from_words(words)
finder.apply_freq_filter(3)
finder.apply_word_filter(filter_stops)
matches1 = finder.nbest(bigram_measures.pmi, 20)
< /code>

Ich fand jedoch heraus, dass Scikit-Learn Ngrams mit unterschiedlicher Länge erhalten kann. Zum Beispiel kann ich NGRAMS mit Länge von 1 bis 5. < /p>

bekommenv = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5))
< /code>

Aber WordNgramanalyzer ist jetzt veraltet. Meine Frage ist: Wie kann ich n Bestes Wortkollokationen aus meinem Text erhalten, mit Kollokationslänge von 1 bis 5. Außerdem muss ich Freqlist dieser Kollokationen/ngrams erhalten.

Kann ich das mit nltk /scikit machen? Ich muss Kombinationen von Ngrams mit verschiedenen Längen aus einem Text bekommen? < /p>

Zum Beispiel verwenden NLTK-Bigrams und Trigramme, in denen viele Situationen, in denen meine Trigramme meine Bitgrams oder meine Trigramme gehören, Teil von größeren 4-Grammen sind. Zum Beispiel:

Bitgrams: Hallo, mein
Trigramme: Hallo, mein Name < Br />
Ich weiß, wie man Bigrams von Trigramme ausschließt, aber ich brauche bessere Lösungen. < /p>

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post