BM25Retriever + Chromadb Hybrid -Suchoptimierung mit Langchain

BM25Retriever + Chromadb Hybrid -Suchoptimierung mit Langchain ⇐ Python

1 post • Page 1 of 1

Anonymous

BM25Retriever + Chromadb Hybrid -Suchoptimierung mit Langchain

Report
Quote

Post by Anonymous » 01 Mar 2025, 15:31

Für diejenigen, die den Chromadb -Client in das Langchain -Framework integriert haben, schlage ich den folgenden Ansatz zur Implementierung der Hybridsuche vor (Vektorsuche + BM25Retriever): < /p>

Code: Select all

from langchain_chroma import Chroma
import chromadb
from chromadb.config import Settings
from langchain_openai import OpenAIEmbeddings
from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever
from langchain_core.documents import Document
from langgraph.graph import START, StateGraph
from typing_extensions import TypedDict

# Assuming that you have instantiated Chroma client and integrate it into Langchain (below is an example)
“””
persistent_client = chromadb.PersistentClient(path=”./test”, settings=Settings(allow_reset=True))
collection = persistent_client.get_or_create_collection(
name=”example”,
metadata={
"hnsw:space": "cosine",
# you can add other HNSW parameters if you want
}
)

chroma = Chroma(
client=persistent_client,
collection_name=collection.name,
embedding_function= OpenAIEmbeddings(model="text-embedding-3-large"))
“””

def hybrid_search(self, query: str, k: int = 5):
"""Perform a Hybrid Search (similarity_search + BM25Retriever) in the collection."""
# Get all raw documents from the ChromaDB
raw_docs = chroma.get(include=["documents", "metadatas"])
# Convert them in Document object
documents = [
Document(page_content=doc, metadata=meta)
for doc, meta in zip(raw_docs["documents"], raw_docs["metadatas"])
]
# Create BM25Retriever from the documents
bm25_retriever = BM25Retriever.from_documents(documents=documents, k=k)
# Create vector search retriever from ChromaDB instance
similarity_search_retriever = self.chroma.as_retriever(
search_type="similarity",
search_kwargs={'k': k}
)
# Ensemble the retrievers using Langchain’s EnsembleRetriever Object
ensemble_retriever = EnsembleRetriever(retrievers=[similarity_search_retriever, bm25_retriever], weights=[0.5, 0.5])
# Retrieve k relevant documents for the query
return ensemble_retriever.invoke(query) # If needed, we can use ainvoke(query) method to retrieve the docs asynchrounously

# Call hybrid_search() method
# Graph Nodes State approach
class State(TypedDict):
question: str
context: List[Document]
answer: str

# --- Define Graph Nodes (retrieve, generate, etc.) ---
def retrieve(state: State) -> dict:
retrieved_docs = vector_store.hybrid_search(state["question"], 3)
return {"context": retrieved_docs}

Hinweis : Der obige Code ist nur eine Sequenz, die ausschließlich die Abrufkomponente enthält, die in die Anwendungsstruktur und den RAG -Fluss weiter integriert ist.>

1740839509

Anonymous

Für diejenigen, die den Chromadb -Client in das Langchain -Framework integriert haben, schlage ich den folgenden Ansatz zur Implementierung der Hybridsuche vor (Vektorsuche + BM25Retriever): < /p>
[code]from langchain_chroma import Chroma
import chromadb
from chromadb.config import Settings
from langchain_openai import OpenAIEmbeddings
from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever
from langchain_core.documents import Document
from langgraph.graph import START, StateGraph
from typing_extensions import TypedDict

# Assuming that you have instantiated Chroma client and integrate it into Langchain (below is an example)
“””
persistent_client = chromadb.PersistentClient(path=”./test”, settings=Settings(allow_reset=True))
collection = persistent_client.get_or_create_collection(
name=”example”,
metadata={
"hnsw:space": "cosine",
# you can add other HNSW parameters if you want
}
)

chroma = Chroma(
client=persistent_client,
collection_name=collection.name,
embedding_function= OpenAIEmbeddings(model="text-embedding-3-large"))
“””

def hybrid_search(self, query: str, k: int = 5):
"""Perform a Hybrid Search (similarity_search + BM25Retriever) in the collection."""
# Get all raw documents from the ChromaDB
raw_docs = chroma.get(include=["documents", "metadatas"])
# Convert them in Document object
documents = [
Document(page_content=doc, metadata=meta)
for doc, meta in zip(raw_docs["documents"], raw_docs["metadatas"])
]
# Create BM25Retriever from the documents
bm25_retriever = BM25Retriever.from_documents(documents=documents, k=k)
# Create vector search retriever from ChromaDB instance
similarity_search_retriever = self.chroma.as_retriever(
search_type="similarity",
search_kwargs={'k': k}
)
# Ensemble the retrievers using Langchain’s EnsembleRetriever Object
ensemble_retriever = EnsembleRetriever(retrievers=[similarity_search_retriever, bm25_retriever], weights=[0.5, 0.5])
# Retrieve k relevant documents for the query
return ensemble_retriever.invoke(query) # If needed, we can use ainvoke(query) method to retrieve the docs asynchrounously

# Call hybrid_search() method
# Graph Nodes State approach
class State(TypedDict):
question: str
context: List[Document]
answer: str

# --- Define Graph Nodes (retrieve, generate, etc.) ---
def retrieve(state: State) -> dict:
retrieved_docs = vector_store.hybrid_search(state["question"], 3)
return {"context": retrieved_docs}

[/code]
[b] Hinweis [/b]: Der obige Code ist nur eine Sequenz, die [b] ausschließlich [/b] die Abrufkomponente enthält, die in die Anwendungsstruktur und den RAG -Fluss weiter integriert ist.>

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Nicht unterstütztesCommandException: Die Methode wurde noch nicht mit der Hybrid -Android -App mit Appium Fehler impleme

Last post by Anonymous « 13 Apr 2025, 13:04
Posted in Java

by Anonymous » 13 Apr 2025, 13:04 » in Java

Ich schreibe automatisierte Testfälle für eine Hybrid-Android-App mit Appium.Set stringSet = webDriver.getWindowHandles();

Dies ergibt jedoch einen Fehler als:...

0 Replies

16 Views

Last post by Anonymous
13 Apr 2025, 13:04
Wie kann ich die Seite Maui Blazor Start zum mobilen Projekt mit der Vorlage von .net Maui Blazor Hybrid und Web App hin

Last post by Anonymous « 12 Mar 2025, 12:12
Posted in C#

by Anonymous » 12 Mar 2025, 12:12 » in C#

Ich habe eine .NET MAUI Blazor Hybrid- und Web -App -Lösung mit den vier mobilen, Web-, gemeinsam genutzten und Client -Projekten.
Der größte Teil der Anwendung befindet sich im gemeinsam genutzten...

0 Replies

20 Views

Last post by Anonymous
12 Mar 2025, 12:12
Erlaubnis für Android -Kamera in der Maui Hybrid App mit MediaPipe JS Pose -Erkennung abgelehnt

Last post by Anonymous « 10 Apr 2025, 13:48
Posted in Android

by Anonymous » 10 Apr 2025, 13:48 » in Android

Ich entwickle eine .NET MAUI Hybrid App, die eine Blazor -Webview verwendet, um eine Weboberfläche mit MediaPipe JS für die Erkennung von Pose auszuführen. Unter Windows funktioniert alles...

0 Replies

20 Views

Last post by Anonymous
10 Apr 2025, 13:48
Verlieren von XML Cryptographic Tools im Android -Release -Modus einer Maui Hybrid -App

Last post by Anonymous « 23 Feb 2025, 12:29
Posted in Android

by Anonymous » 23 Feb 2025, 12:29 » in Android

Ich habe eine Blazor Maui Hybrid App in .NET 9. Ich habe auch eine Bibliothek in dieser Lösung, die eine XML -Signaturüberprüfung durchführt. Ich habe eine Nullausnahme, aber nur im Release -Modus...

0 Replies

14 Views

Last post by Anonymous
23 Feb 2025, 12:29
Fehlerbehebung Chromadb -Konfiguration mit semantischen Kernel und Docker Compose

Last post by Anonymous « 23 Feb 2025, 14:28
Posted in C#

by Anonymous » 23 Feb 2025, 14:28 » in C#

Ich habe semantische Kernel AI -Konfiguration Öffnen Sie Chromadb .
// Initialization
var collectionName = mydataMemory ;
await chromaClient.CreateCollectionAsync(collectionName,...

0 Replies

23 Views

Last post by Anonymous
23 Feb 2025, 14:28

Return to “Python”