Ich versuche, englische Wortvektoren aus dem in Google News geschult in Google News geschult mit japanischen Sprachwort Vektoren entnommenen Modellen aus zwei verschiedenen Modellen auszurichten: das FastText-Modell, das auf Wikipedia vorgebracht wurde, und das FastTtext-Modell, das auf allgemeinen Kriechen vorgebracht wurde. 300. < /p>
Ausrichtung der Vektoren erfolgt mit der Procrustes -Transformation in Python mit der Scipy -Bibliothek wie SO: < /p>
Code: Select all
from scipy.linalg import orthogonal_procrustes
# Compute the transformation matrix
R, _ = orthogonal_procrustes(japanese_vectors, english_vectors)
# Apply transformation to Japanese vectors
aligned_japanese_vectors = japanese_vectors @ R # Matrix multiplication
< /code>
Das [url=viewtopic.php?t=15738]Problem[/url] ist nicht mit dem Code, den ich nicht denke, sondern mit den Vektoren selbst; Insbesondere diejenigen, die aus dem FastText Wiki -Modell stammen. Die Vektoren richten sich einfach nicht auf die erwartete Weise aus.from numpy.linalg import norm
# Function to compute cosine similarity
def cosine_similarity(v1, v2):
return np.dot(v1, v2) / (norm(v1) * norm(v2))
# Compute cosine similarity for each word pair
cosine_similarities = [
(english_words[i], japanese_words[i], cosine_similarity(english_vectors[i], aligned_japanese_vectors[i]))
for i in range(len(english_words))
]
Wenn die englischen Vektoren mit den japanischen
-Krawl-Vektoren ausgerichtet sind, betragen die Ausrichtungen zwischen Sprache ~ .80 bis 0,90, was erwartet wird. Ausrichtungen zwischen den englischen Vektoren und den japanischen Vektoren aus dem FastText Wiki -Modell sind ~ .4-.5. Pearsons Korrelation zwischen den gemeinsamen Kriechalignments und den Wiki -Ausrichtungen betragen nur ~ .45, was mir sagt, dass etwas weit weg ist. Die japanischen Vektoren, die aus den Wiki -Modellen entnommen wurden, sind alle> 1. Englische Vektoren und japanische gemeinsame Crawl -Vektoren sahen zwischen den .bin- und .txt -Dateien mehr oder weniger gleich aus. Japanische Wiki-Model-Wortvektoren sind zwischen den .bin- und .txt-Dateien unterschiedlich. < /P>
Ich bin ratlos. Jede Hilfe wird sehr geschätzt.