Minibatchkmeans Bertopic gibt keine Themen für die Hälfte der Daten zurück

Minibatchkmeans Bertopic gibt keine Themen für die Hälfte der Daten zurück ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Minibatchkmeans Bertopic gibt keine Themen für die Hälfte der Daten zurück

Report
Quote

Post by Anonymous » 15 Sep 2025, 01:12

Ich versuche, einen Datensatz mit Tweets zu thematisieren. Ich habe rund 50 Millionen Tweets. Leider passt ein so großer Datensatz aufgrund der Einbettungen nicht in RAM (sogar 128 GB). Daher habe ich daran gearbeitet, eine inkrementelle Bertopic gemäß den Dokumenten zu erstellen.from bertopic.vectorizers import OnlineCountVectorizer
from bertopic.vectorizers import ClassTfidfTransformer
from sklearn.cluster import MiniBatchKMeans
import numpy as np

class SafeIncrementalPCA(IncrementalPCA):
def partial_fit(self, X, y=None):
# Ensure the input is contiguous and in float64
X = np.ascontiguousarray(X, dtype=np.float64)
return super().partial_fit(X, y)

def transform(self, X):
result = super().transform(X)
# Force the output to be float64 and contiguous
return np.ascontiguousarray(result, dtype=np.float64)

vectorizer_model = OnlineCountVectorizer(stop_words="english")
ctfidf_model = ClassTfidfTransformer(reduce_frequent_words=True, bm25_weighting=True)
umap_model = SafeIncrementalPCA(n_components=100)
cluster_model = MiniBatchKMeans(n_clusters=1000, random_state=0)

from bertopic import BERTopic

topic_model = BERTopic(umap_model=umap_model,
hdbscan_model=cluster_model,

for docs_delayed, emb_delayed in tqdm(zip(docs_partitions, embeddings_partitions), total=len(docs_partitions)):

docs_pdf = docs_delayed.compute()
emb_pdf = emb_delayed.compute()

docs = docs_pdf["text"].tolist()
embeddings = np.vstack(emb_pdf['embeddings'].tolist())

# Partial fit your model (make sure your model supports partial_fit, like many scikit-learn estimators do)
topic_model.partial_fit(docs, embeddings)

< /code>
und dann den Datensatz in eine SQL-Datenbank umwandeln: < /p>

for docs_delayed, emb_delayed in tqdm(zip(docs_partitions, embeddings_partitions), total=len(docs_partitions)):

docs_pdf = docs_delayed.compute()
emb_pdf = emb_delayed.compute()
docs = docs_pdf["text"].tolist()
embeddings = np.vstack(emb_pdf['embeddings'].tolist())

# 3) Apply BERTopic on this shard
topics, probs = topic_model.transform(docs, embeddings)

# Save topics to DataFrame
df_topics = pd.DataFrame({
"tweet_id": docs_pdf["id"].tolist(),
"topic": topics,
"probability": probs
})

## Merge & store in DB
docs_pdf["topic"] = df_topics["topic"]
docs_pdf["probability"] = df_topics["probability"]
docs_pdf.to_sql("tweets", engine, if_exists="append", index=False)
< /code>
Ich habe schon eine ganze Weile versucht, dies zu tun, und dies ist das nächstgelegene Beispiel, das ich bekommen habe. Das einzige Problem ist, dass die Hälfte des Datensatzes am Ende Null -Themen in der Datenbank hat. Soweit ich die Theorie verstehe, sollten Minibatchkmeans keine Ausreißer haben, und daher sollten alle Tweets mindestens einem Thema zugeordnet werden, oder? Ich habe die nicht klassifizierten Tweets überprüft und es gibt nichts in ihrem Dokument, das darauf hindeutet, dass es schwierig wäre, zu klassifizieren (im Vergleich zu anderen, die klassifiziert werden).>

1757891567

Anonymous

Ich versuche, einen Datensatz mit Tweets zu thematisieren. Ich habe rund 50 Millionen Tweets. Leider passt ein so großer Datensatz aufgrund der Einbettungen nicht in RAM (sogar 128 GB). Daher habe ich daran gearbeitet, eine inkrementelle Bertopic gemäß den Dokumenten zu erstellen.from bertopic.vectorizers import OnlineCountVectorizer
from bertopic.vectorizers import ClassTfidfTransformer
from sklearn.cluster import MiniBatchKMeans
import numpy as np

class SafeIncrementalPCA(IncrementalPCA):
def partial_fit(self, X, y=None):
# Ensure the input is contiguous and in float64
X = np.ascontiguousarray(X, dtype=np.float64)
return super().partial_fit(X, y)

def transform(self, X):
result = super().transform(X)
# Force the output to be float64 and contiguous
return np.ascontiguousarray(result, dtype=np.float64)

vectorizer_model = OnlineCountVectorizer(stop_words="english")
ctfidf_model = ClassTfidfTransformer(reduce_frequent_words=True, bm25_weighting=True)
umap_model = SafeIncrementalPCA(n_components=100)
cluster_model = MiniBatchKMeans(n_clusters=1000, random_state=0)

from bertopic import BERTopic

topic_model = BERTopic(umap_model=umap_model,
hdbscan_model=cluster_model,

for docs_delayed, emb_delayed in tqdm(zip(docs_partitions, embeddings_partitions), total=len(docs_partitions)):

docs_pdf = docs_delayed.compute()
emb_pdf = emb_delayed.compute()

docs = docs_pdf["text"].tolist()
embeddings = np.vstack(emb_pdf['embeddings'].tolist())

# Partial fit your model (make sure your model supports partial_fit, like many scikit-learn estimators do)
topic_model.partial_fit(docs, embeddings)

< /code>
und dann den Datensatz in eine SQL-Datenbank umwandeln: < /p>

for docs_delayed, emb_delayed in tqdm(zip(docs_partitions, embeddings_partitions), total=len(docs_partitions)):

docs_pdf = docs_delayed.compute()
emb_pdf = emb_delayed.compute()
docs = docs_pdf["text"].tolist()
embeddings = np.vstack(emb_pdf['embeddings'].tolist())

# 3) Apply BERTopic on this shard
topics, probs = topic_model.transform(docs, embeddings)

# Save topics to DataFrame
df_topics = pd.DataFrame({
"tweet_id": docs_pdf["id"].tolist(),
"topic": topics,
"probability": probs
})

## Merge & store in DB
docs_pdf["topic"] = df_topics["topic"]
docs_pdf["probability"] = df_topics["probability"]
docs_pdf.to_sql("tweets", engine, if_exists="append", index=False)
< /code>
Ich habe schon eine ganze Weile versucht, dies zu tun, und dies ist das nächstgelegene Beispiel, das ich bekommen habe. Das einzige [url=viewtopic.php?t=26065]Problem[/url] ist, dass die Hälfte des Datensatzes am Ende Null -Themen in der Datenbank hat. Soweit ich die Theorie verstehe, sollten Minibatchkmeans keine Ausreißer haben, und daher sollten alle Tweets mindestens einem Thema zugeordnet werden, oder? Ich habe die nicht klassifizierten Tweets überprüft und es gibt nichts in ihrem Dokument, das darauf hindeutet, dass es schwierig wäre, zu klassifizieren (im Vergleich zu anderen, die klassifiziert werden).>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Die Get-Anfrage gibt nur die Hälfte der Daten zurück, die benötigt werden

Last post by Guest « 03 Jan 2025, 12:16
Posted in Python

by Guest » 03 Jan 2025, 12:16 » in Python

Ich verwende den Spotify-Endpunkt „Zuletzt gespielte Titel abrufen“, um die letzten 50 Songs abzurufen, die ich gehört habe. Meine Antwort scheint jedoch auf halbem Weg durch die Artikelreihe...

0 Replies

59 Views

Last post by Guest
03 Jan 2025, 12:16
Was ist der schnellste Weg, um Indizes für den Zugriff auf das rechte Dreieck der Hälfte eines quadratischen Arrays zu g

Last post by Anonymous « 11 Apr 2025, 13:17
Posted in Python

by Anonymous » 11 Apr 2025, 13:17 » in Python

Bei einem 2D -Numpy -Array mit gleicher Höhe und Breite sind die Höhe und Breite garantiert gleich, und so ist das Array ein Quadrat. /> Ich habe Funktionen implementiert, die viel effizienter als...

0 Replies

54 Views

Last post by Anonymous
11 Apr 2025, 13:17
Uvicorn -Arbeiter reduzieren die Leistung anscheinend um die Hälfte

Last post by Anonymous « 13 May 2025, 04:21
Posted in Python

by Anonymous » 13 May 2025, 04:21 » in Python

Meine Haupttest -App:
from starlette.applications import Starlette
from starlette.responses import PlainTextResponse
from starlette.routing import Route

async def homepage(request):
return...

0 Replies

46 Views

Last post by Anonymous
13 May 2025, 04:21
Teilen Sie jeden Wert eines flachen Arrays am Trennzeichen auf und erstellen Sie aus jeder Hälfte separate Arrays

Last post by Guest « 16 Jan 2025, 11:24
Posted in Php

by Guest » 16 Jan 2025, 11:24 » in Php

Ich versuche, die Ergebnisse zu explodieren und in zwei verschiedene Arrays aufzuteilen One One_x
Two Two_xx
Three Three_xxx
Four Four_xxxx

Ich möchte zuerst die Bruchlinie ( \n ) auflösen.

dann...

0 Replies

88 Views

Last post by Guest
16 Jan 2025, 11:24
Laufzettel in Kafka (Themen der Reihe nach aufrufen)

Last post by Anonymous « 24 Dec 2024, 10:11
Posted in C#

by Anonymous » 24 Dec 2024, 10:11 » in C#

Stellen Sie sich vor, ich hätte ein Chronographensystem, dessen Reihenfolge für mich wichtig ist. Ich habe zum Beispiel einen Produzenten, der Daten mithilfe von Confluent.Kafka in c# zum ersten...

0 Replies

41 Views

Last post by Anonymous
24 Dec 2024, 10:11

Return to “Python”