Modèles multimodaux avec Sentence Transformers
Sentence Transformers v5.4 permet désormais d'encoder et comparer textes, images, audio et vidéos via une API unifiée. Les modèles multimodaux ouvrent des possibilités comme la recherche visuelle ou les pipelines RAG hybrides. L'installation nécessite des dépendances spécifiques selon les modalités.
Que faut-il retenir ?
- Sentence Transformers v5.4 supporte textes, images, audio et vidéos via une API commune.
- Les modèles nécessitent un GPU avec 8GB VRAM (20GB pour les variants 8B).
- Installation via pip avec options spécifiques : [image], [audio] ou [video].
- Exemple de code pour encoder des images depuis URLs avec Qwen3-VL-Embedding-2B.
Pourquoi cette nouvelle compte-t-elle ?
Ces avancées permettent des applications concrètes comme la recherche cross-modale ou l'augmentation de RAG avec des données multimodales. Les professionnels gagnent en flexibilité pour traiter des données hétérogènes. La compatibilité avec différents formats (URLs, fichiers locaux, PIL) simplifie l'intégration.
Public concerné : développeurs