Nomic Embed Text V2 : Un Modèle d’Embedding Multilingue et Open Source

Nomic Embed Text V2 : Le Futur de l’Embedding ?

Nomic a annoncé Nomic Embed Text V2, un modèle d’embedding de nouvelle génération basé sur l’architecture Mixture of Experts (MoE). Ce modèle multilingue open source offre des performances compétitives sur les benchmarks BEIR et MIRACL tout en réduisant l’utilisation de la mémoire grâce à son architecture MoE. Les données de pré-entraînement, les données de fine-tuning et le code d’entraînement sont également disponibles en open source.

Points clés

Nomic Embed Text V2 est le premier modèle d’embedding basé sur l’architecture Mixture-of-Experts (MoE).
Le modèle prend en charge les applications multilingues et a été entraîné sur des dizaines de langues.
Il offre de solides performances sur les benchmarks BEIR et MIRACL par rapport à sa classe de paramètres.
Nomic met à disposition en open source les données de pré-entraînement, les données de fine-tuning et le code d’entraînement.
L’architecture MoE permet d’améliorer la vitesse et de réduire l’utilisation de la mémoire pendant l’entraînement et l’inférence en réduisant le nombre de paramètres actifs.
Nomic Embed Text V2 intègre l’apprentissage de la représentation Matryoshka, permettant la troncature de dimension de 768 à 256 dimensions tout en maintenant la qualité de l’embedding.
Les données d’entraînement multilingues comprennent 1,6 milliard de paires de données de haute qualité issues de mC4 et de CC News multilingue.

À retenir

Alors, ce Nomic Embed Text V2, c’est le Saint Graal de l’embedding ou juste un gadget de plus ? Avec son architecture MoE et ses performances prometteuses, il semble bien parti pour révolutionner le domaine. Mais bon, on attend de voir s’il tiendra ses promesses en conditions réelles. En attendant, on peut toujours s’amuser avec le code open source, si on a le courage de s’y plonger !

Sources