So fügen Sie inkrementell Python Faiss Index hinzu

So fügen Sie inkrementell Python Faiss Index hinzu ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

So fügen Sie inkrementell Python Faiss Index hinzu

Post by Anonymous » 03 Mar 2025, 03:01

Ich verwende Faiss, um meine riesigen Datensatz -Einbettungen zu indizieren und aus dem Bert -Modell einzubetten. Ich möchte die Einbettung inkrementell hinzufügen, es funktioniert gut, wenn ich sie nur mit faiss.indexflatl2 hinzufüge, aber das Problem ist, dass es zu groß ist. sollte im Ram gehalten werden, bis ich es schreibe. Gibt es eine Möglichkeit, dies inkrementell zu tun.
Hier ist mein Code: < /p>

Code: Select all

    # It is working fine when using with IndexFlatL2
def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.index = faiss.IndexFlatL2(768)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
for i, (toks, embs) in enumerate(tqdm(result)):
# initialize all_embeddings for every new sentence (INCREMENTALLY)
all_embeddings = []
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings) # Add embeddings after every sentence
self.index.add(all_embeddings)

faiss.write_index(self.index, "faiss_Model")
< /code>
und bei Verwendung mit IndexIVFPQ: < /p>
   def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.quantizer = faiss.IndexFlatL2(768)
self.index = faiss.IndexIVFPQ(self.quantizer, 768, 1000, 16, 8)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
all_embeddings = []
for i, (toks, embs) in enumerate(tqdm(result)):
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings)
self.index.train(all_embeddings) # Train
self.index.add(all_embeddings) # Add to index
faiss.write_index(self.index, "faiss_Model_mini")

1740967265

Anonymous

Ich verwende Faiss, um meine riesigen Datensatz -Einbettungen zu indizieren und aus dem Bert -Modell einzubetten. [url=viewtopic.php?t=14917]Ich möchte[/url] die Einbettung inkrementell hinzufügen, es funktioniert gut, wenn ich sie nur mit faiss.indexflatl2 hinzufüge, aber das Problem ist, dass es zu groß ist. sollte im Ram gehalten werden, bis ich es schreibe. Gibt es eine Möglichkeit, dies inkrementell zu tun.
Hier ist mein Code: < /p>
[code]    # It is working fine when using with IndexFlatL2
def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.index = faiss.IndexFlatL2(768)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
for i, (toks, embs) in enumerate(tqdm(result)):
# initialize all_embeddings for every new sentence (INCREMENTALLY)
all_embeddings = []
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings) # Add embeddings after every sentence
self.index.add(all_embeddings)

faiss.write_index(self.index, "faiss_Model")
< /code>
und bei Verwendung mit IndexIVFPQ: < /p>
   def __init__(self, sentences, model):
self.sentences = sentences
self.model = model
self.quantizer = faiss.IndexFlatL2(768)
self.index = faiss.IndexIVFPQ(self.quantizer, 768, 1000, 16, 8)

def process_sentences(self):
result = self.model(self.sentences)
self.sentence_ids = []
self.token_ids = []
self.all_tokens = []
all_embeddings = []
for i, (toks, embs) in enumerate(tqdm(result)):
for j, (tok, emb) in enumerate(zip(toks, embs)):
self.sentence_ids.append(i)
self.token_ids.append(j)
self.all_tokens.append(tok)
all_embeddings.append(emb)

all_embeddings = np.stack(all_embeddings)
self.index.train(all_embeddings) # Train
self.index.add(all_embeddings) # Add to index
faiss.write_index(self.index, "faiss_Model_mini")
[/code]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

So fügen Sie inkrementell Python Faiss Index hinzu

Last post by Anonymous « 01 Jul 2025, 11:02
Posted in Python

by Anonymous » 01 Jul 2025, 11:02 » in Python

Ich verwende Faiss, um meine riesigen Datensatz -Einbettungen zu indizieren und aus dem Bert -Modell einzubetten. Ich möchte die Einbettung inkrementell hinzufügen, es funktioniert gut, wenn ich sie...

0 Replies

0 Views

Last post by Anonymous
01 Jul 2025, 11:02
Wie wähle ich von Index [3] zum Index [8] in einer Liste auf Python aus?

Last post by Anonymous « 01 Mar 2025, 15:24
Posted in Python

by Anonymous » 01 Mar 2025, 15:24 » in Python

Ich bin neu in Python und habe einige Probleme über die Übernahme von einem Spefcific -Index zu anderen. Ex: Ich fordere eine Eingabe des Namens von jedem Elternteil des Benutzers an und möchte nur...

0 Replies

18 Views

Last post by Anonymous
01 Mar 2025, 15:24
Wie können Faiss-Ergebnisse verbessert werden?

Last post by Guest « 16 Jan 2025, 12:00
Posted in Python

by Guest » 16 Jan 2025, 12:00 » in Python

Ich schreibe gerade ein Programm, in dem ich Informationen von einem Lappen abrufen muss. Diese Informationen sollten dann von einem LLM verwendet werden. Ich verwende FAISS in einer Python-Umgebung...

0 Replies

5 Views

Last post by Guest
16 Jan 2025, 12:00
Faiss.from_texts () ESSIGEN VALUEEREERROR: Eingabe nicht ein Numpy -Array

Last post by Anonymous « 21 Mar 2025, 00:19
Posted in Python

by Anonymous » 21 Mar 2025, 00:19 » in Python

vec_multi = embedding.embed_documents(pdf_chunks)

import numpy as np
vec_np = np.array(vec_multi)

print(vec_np.shape) # (문장 개수, 임베딩 차원)
print(vec_np.dtype)

(2119, 768)
float64...

0 Replies

2 Views

Last post by Anonymous
21 Mar 2025, 00:19
Fehler ausführen FAISS auf Google Cloud Run, jedoch nicht auf Lokal

Last post by Anonymous « 12 May 2025, 02:13
Posted in Python

by Anonymous » 12 May 2025, 02:13 » in Python

Ich erhalte diesen Fehler, wenn ich versuche, auf die nicht -faiss_index auf die nicht -faiss_index zugreifen zu können. Ich leite Faiss-CPU Python Version 1.10.0. Dies funktioniert nicht aus...

0 Replies

14 Views

Last post by Anonymous
12 May 2025, 02:13

Return to “Python”