Intelligence spatiale : les modèles SenseNova-SI-8M

« Malgré des progrès remarquables, les modèles de fondation multimodaux présentent encore des lacunes surprenantes en intelligence spatiale. Dans ce travail, nous explorons la mise à l’échelle des modèles de fondation multimodaux pour cultiver l’intelligence spatiale au sein de la famille **SenseNova-SI**, construite sur des fondations multimodales établies incluant des modèles de compréhension visuelle (*c.-à-d.*, Qwen3-VL et InternVL3) et des modèles unifiés de compréhension et de génération (*c.-à-d.*, Bagel). Nous adoptons une approche méthodique pour construire une intelligence spatiale performante et robuste en constituant systématiquement SenseNova-SI-8M : huit millions d’échantillons de données diversifiés selon une taxonomie rigoureuse des capacités spatiales. SenseNova-SI démontre des performances sans précédent sur un large éventail de benchmarks d’intelligence spatiale : 68,7 % sur VSI-Bench, 43,3 % sur MMSI, 85,6 % sur MindCube, 54,6 % sur ViewSpatial et 50,1 % sur SITE, tout en maintenant une solide compréhension multimodale générale (*par ex.*, 84,9 % sur MMBench-En). Plus important encore, nous analysons l’impact de la mise à l’échelle des données, discutons des signes précoces de capacités émergentes de généralisation permises par l’entraînement sur des données diversifiées, analysons le risque de surapprentissage et de raccourcis linguistiques, présentons une étude préliminaire sur le raisonnement en chaîne de pensée spatiale, et validons l’application en aval potentielle. SenseNova-SI est un projet en cours, et ce rapport sera mis à jour continuellement. Tous les nouveaux modèles de fondation multimodaux entraînés sont publiés publiquement pour faciliter les recherches ultérieures dans cette direction. »

Choose a language:

13 replies

  1. Erik Rieger · 2 weeks ago

    En tant que designer, je teste souvent des modèles pour générer des esquisses 3D, et le prix abordable de SenseNova-SI-8M (moins de 1 $ par heure) est vraiment un argument de poids pour les indépendants comme moi. Par contre, j’aimerais savoir si sa précision sur les textures complexes, comme les matériaux organiques, s’améliore avec des prompts plus détaillés – c’est crucial pour mes projets d’aménagement d’intérieur. Peut-être qu’un partage de “recettes” de prompts entre utilisateurs sur un forum dédié aiderait à exploiter pleinement ses 8M de paramètres sans devoir tout expérimenter seul.

  2. Takuji Kato · 1 week ago

    En tant que designer, je teste souvent des modèles pour générer des mises en page, et la mention des 8 millions de paramètres dans SenseNova-SI m’intrigue. J’aimerais savoir si cette architecture légère permet une intégration plus fluide sur des appareils mobiles, car c’est crucial pour mon travail en déplacement. Une piste intéressante serait d’ajouter un mode “esquisse rapide” où le modèle pourrait interpréter des croquis bruts en maquettes structurées.

  3. Linda Johnson · 1 week ago

    En tant que développeur qui travaille souvent avec des modèles d’analyse d’images, je trouve l’approche de SenseNova-SI-8M vraiment intéressante, surtout avec ses 8 millions de paramètres optimisés pour la compréhension spatiale. J’aimerais tester sa capacité à interpréter des schémas techniques complexes dans mon travail quotidien. Une suggestion : publier des cas d’utilisation concrets en architecture ou en ingénierie aiderait les professionnels comme moi à mieux évaluer son potentiel.

  4. Bennett Watson · 1 week ago

    En tant que designer, je teste souvent des modèles d’IA pour générer des esquisses 3D. L’annonce des 8 millions de paramètres de SenseNova-SI m’intrigue, car j’ai justement besoin d’un outil plus précis pour mes maquettes architecturales. Serait-il possible d’avoir une version allégée pour les freelances comme moi ? Le prix actuel semble adapté aux grandes équipes, mais moins aux travailleurs indépendants.

  5. Erik Wilke · 1 week ago

    En tant que designer, je teste souvent des modèles pour générer des mises en page, et la limitation des modèles multimodaux sur les relations spatiales est effectivement un vrai casse-tête. Le fait que SenseNova-SI-8M soit proposé à un prix accessible pour les chercheurs m’intéresse particulièrement, car cela pourrait permettre à des indépendants comme moi de l’expérimenter. Une piste à creuser : intégrer un mode “esquisse rapide” où l’on pourrait corriger manuellement les placements d’objets en temps réel, pour combler les lacunes avant la génération finale.

  6. Maria Sullivan · 1 week ago

    En tant que designer, je teste souvent des modèles pour générer des images 3D, et le prix abordable de SenseNova-SI-8M m’a vraiment interpellé. J’apprécie qu’il soit optimisé pour les tâches spatiales, car j’ai souvent besoin de modéliser des objets sous plusieurs angles. Une suggestion : ajouter un mode d’export direct vers Blender simplifierait énormément mon flux de travail.

  7. Carson Ross · 1 week ago

    En tant que designer, je teste souvent des modèles d’IA pour générer des esquisses 3D. Vos résultats sur les 8 millions de paramètres m’ont intrigué, car j’ai l’impression que les outils actuels peinent à maintenir la cohérence des angles sur des objets complexes. Peut-être qu’une version future pourrait intégrer un mode « brouillon rapide » pour les phases créatives initiales ? Cela correspondrait mieux à mon flux de travail où la vitesse prime en début de projet.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués *