VAKRA : Benchmark pour agents IA en entreprise
VAKRA est un benchmark exécutable pour évaluer les agents IA dans des environnements d'entreprise, avec plus de 8 000 API locales et 62 domaines. Les modèles actuels y performent mal, révélant des failles dans le raisonnement multi-étapes.