by Anonymous » 04 Mar 2025, 04:53
Ich versuche, englische Wortvektoren aus dem in Google News geschult in Google News geschult mit japanischen Sprachwort Vektoren entnommenen Modellen aus zwei verschiedenen Modellen auszurichten: das FastText-Modell, das auf Wikipedia vorgebracht wurde, und das FastTtext-Modell, das auf allgemeinen Kriechen vorgebracht wurde. 300. < /p>
Ausrichtung der Vektoren erfolgt mit der Procrustes -Transformation in Python mit der Scipy -Bibliothek wie SO: < /p>
Code: Select all
from scipy.linalg import orthogonal_procrustes
# Compute the transformation matrix
R, _ = orthogonal_procrustes(japanese_vectors, english_vectors)
# Apply transformation to Japanese vectors
aligned_japanese_vectors = japanese_vectors @ R # Matrix multiplication
< /code>
Das [url=viewtopic.php?t=15738]Problem[/url] ist nicht mit dem Code, den ich nicht denke, sondern mit den Vektoren selbst; Insbesondere diejenigen, die aus dem FastText Wiki -Modell stammen. Die Vektoren richten sich einfach nicht auf die erwartete Weise aus.from numpy.linalg import norm
# Function to compute cosine similarity
def cosine_similarity(v1, v2):
return np.dot(v1, v2) / (norm(v1) * norm(v2))
# Compute cosine similarity for each word pair
cosine_similarities = [
(english_words[i], japanese_words[i], cosine_similarity(english_vectors[i], aligned_japanese_vectors[i]))
for i in range(len(english_words))
]
Wenn die englischen Vektoren mit den japanischen
-Krawl-Vektoren ausgerichtet sind, betragen die Ausrichtungen zwischen Sprache ~ .80 bis 0,90, was erwartet wird. Ausrichtungen zwischen den englischen Vektoren und den japanischen Vektoren aus dem FastText Wiki -Modell sind ~ .4-.5. Pearsons Korrelation zwischen den gemeinsamen Kriechalignments und den Wiki -Ausrichtungen betragen nur ~ .45, was mir sagt, dass etwas weit weg ist. Die japanischen Vektoren, die aus den Wiki -Modellen entnommen wurden, sind alle> 1. Englische Vektoren und japanische gemeinsame Crawl -Vektoren sahen zwischen den .bin- und .txt -Dateien mehr oder weniger gleich aus. Japanische Wiki-Model-Wortvektoren sind zwischen den .bin- und .txt-Dateien unterschiedlich. < /P>
Ich bin ratlos. Jede Hilfe wird sehr geschätzt.
Ich versuche, englische Wortvektoren aus dem in Google News geschult in Google News geschult mit japanischen Sprachwort Vektoren entnommenen Modellen aus zwei verschiedenen Modellen auszurichten: das FastText-Modell, das auf Wikipedia vorgebracht wurde, und das FastTtext-Modell, das auf allgemeinen Kriechen vorgebracht wurde. 300. < /p>
Ausrichtung der Vektoren erfolgt mit der Procrustes -Transformation in Python mit der Scipy -Bibliothek wie SO: < /p>
[code]from scipy.linalg import orthogonal_procrustes
# Compute the transformation matrix
R, _ = orthogonal_procrustes(japanese_vectors, english_vectors)
# Apply transformation to Japanese vectors
aligned_japanese_vectors = japanese_vectors @ R # Matrix multiplication
< /code>
Das [url=viewtopic.php?t=15738]Problem[/url] ist nicht mit dem Code, den ich nicht denke, sondern mit den Vektoren selbst; Insbesondere diejenigen, die aus dem FastText Wiki -Modell stammen. Die Vektoren richten sich einfach nicht auf die erwartete Weise aus.from numpy.linalg import norm
# Function to compute cosine similarity
def cosine_similarity(v1, v2):
return np.dot(v1, v2) / (norm(v1) * norm(v2))
# Compute cosine similarity for each word pair
cosine_similarities = [
(english_words[i], japanese_words[i], cosine_similarity(english_vectors[i], aligned_japanese_vectors[i]))
for i in range(len(english_words))
]
[/code]
Wenn die englischen Vektoren mit den japanischen [b] -Krawl-Vektoren ausgerichtet sind, betragen die Ausrichtungen zwischen Sprache ~ .80 bis 0,90, was erwartet wird. Ausrichtungen zwischen den englischen Vektoren und den japanischen Vektoren aus dem FastText Wiki [/b] -Modell sind ~ .4-.5. Pearsons Korrelation zwischen den gemeinsamen Kriechalignments und den Wiki -Ausrichtungen betragen nur ~ .45, was mir sagt, dass etwas weit weg ist. Die japanischen Vektoren, die aus den Wiki -Modellen entnommen wurden, sind alle> 1. Englische Vektoren und japanische gemeinsame Crawl -Vektoren sahen zwischen den .bin- und .txt -Dateien mehr oder weniger gleich aus. Japanische Wiki-Model-Wortvektoren sind zwischen den .bin- und .txt-Dateien unterschiedlich. < /P>
Ich bin ratlos. Jede Hilfe wird sehr geschätzt.