Modèles de langage Mamba : Nemotron vs Falcon vs Qwen

With the recent release of not one but two transformers-mamba hybrids both claiming to outperform baseline transformers, I thought this would be a fun application of ReasonScape to see what’s going on under the hood.

# Test Model 1: Falcon-H1 7B

Blog: [https://falcon-lm.github.io/blog/falcon-h1/](https://falcon-lm.github.io/blog/falcon-h1/)

Model: [https://huggingface.co/tiiuae/Falcon-H1-7B-Instruct](https://huggingface.co/tiiuae/Falcon-H1-7B-Instruct)

[Claim: Falcon-7B \(61.8\) outperforms Qwen3-8B \(58.5\)](https://preview.redd.it/7i2z9yciyrkf1.png?width=683&format=png&auto=webp&s=c1d03fc28117947e2313a514e051fabba3e01682)

# Test Model 2: NVidia Nemotron Nano v2

Blog: [https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/](https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/)

Model: [https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2](https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2)

[Claim: Nemotron-Nano-9B outperforms Qwen3-8B across the board](https://preview.redd.it/ao6fzh5tyrkf1.png?width=2304&format=png&auto=webp&s=fb457ae99043c267682b39ce4c29581daa1f7e64)

# Reference Model 1: Qwen3-8B OG

Blog: [https://qwenlm.github.io/blog/qwen3/](https://qwenlm.github.io/blog/qwen3/)

Model: [https://huggingface.co/Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)

# Reference Model 2: Qwen3-4B-2507-Instruct

Blog: [https://qwen3lm.com/qwen3-4b-instruct-2507/](https://qwen3lm.com/qwen3-4b-instruct-2507/)

Model: [https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507)

# Test Setup

All models were evaluated with 2x RTX3090 using vLLM 0.10.1

Nemotron Nano v2 was launched with the recommended `–mamba_ssm_cache_dtype float32` flag.

The evaluation being performed here is one of my design: ReasonScape M6. See [https://reasonscape.com/](https://reasonscape.com/) for details and documentation.

# Results: Difficulty Tiered Leaderboards

[Hybrid-SSM Results](https://preview.redd.it/cfscchg50skf1.png?width=1137&format=png&auto=webp&s=8d81f8f61ee585eca5e9dd8eb9283e3382f3fce9)

Nemotron Nano v2 demonstrates **significantly improved all-around complexity robustness** over Falcon-H1, but it does as the expense of **3x thinking tokens.**

[Qwen3 Results](https://preview.redd.it/1x226ztf0skf1.png?width=1136&format=png&auto=webp&s=3126d6e6fdd0133a5ba248d069748c2df46aa1ef)

Performance on the **Boolean, Dates** and **Movies** tasks (see [https://reasonscape.com/docs/tasks/](https://reasonscape.com/docs/tasks/) for more info on the tasks!) is indeed comparable but the **Objects**, **Arithmetic** and **Shuffle** tasks present significant challenges for the hybrids.

The old Qwen3 models **think way too much** but the new 2507-Instruct do really well when simply asked to * »think-step-by-step ».*

# Results: Performance Surfaces

I will merge the Test and Reference sets together for the remainder of plots to make comparisons easier:

[ReasonScape M6 Difficulty Manifolds for the 4 models](https://preview.redd.it/o264zvgb1skf1.png?width=1920&format=png&auto=webp&s=63420e7384da7c0f4dd3a3387a2023cf1e67f804)

Nemotron **Dates** processing is robust but **Objects** (a selective attention task) collapses in both difficulty dimensions very quickly compared to pure transformers. **Arithmetic** (under randomized whitespace conditions) holds up ok with depth, but collapses under length. **Shuffle** (a working memory churn task) shows a similar pattern: depth is ok, but total collapse under length leading to a smaller island of competency.

All models struggled with truncation on the **Boolean** task, but Falcon least so.

# Results: Token-FFT Analysis

ReasonScape offers a unique kind of plot, showing exactly how chat template and tokenization affect the frequency-domain representation of what the LLM actually sees.

These allow to peek even below the surfaces and understand WHY some things are tougher for certain models and split training problems from architectural problems.

[Token-FFT: Arithmetic](https://preview.redd.it/4nqoy43d2skf1.png?width=2000&format=png&auto=webp&s=acd11dcdc896c0392529a2f172bcdaeb7334f04a)

Here we see exactly why Nemotron isn’t very good at arithmetic:

\- The whitespace/no-whitespace representations of math problems look VERY different to this tokenizer and it has had trouble generalizing as a result

\- As length increases, the information content .. disappears! No change at DC, but the middle and high-band information is lost. Performance predictably collapses as a result.

[Token-FFT: Boolean](https://preview.redd.it/8c0zoiv73skf1.png?width=2000&format=png&auto=webp&s=9374f97bf696d29d40084700b219e41e7a7ed8a1)

An interesting comparison here is the Boolean task which demonstrates similar information-compression along with the ON/OFF and YES/NO formats. These formats have the weakest results on the surfaces compared to the others (because at the end of the day, compressing your signal is bad) but they manage to eek out « satisfactory » scores because the DC had a corresponding upward shift. This is a ‘lower-tier of information loss’ vs when the DC stays the same and we just lose signal.

# Conclusions

**Nemotron Nano is the most powerful hybrid I’ve evaluated so far.** It’s major weakness is that it seems to have failed to generalize Arithmetic and it’s selective attention (information-filtering ability) is noticeably weaker then SOTA transformers. Mid-tier for reasoning length.

**While Hybrids are getting better, they don’t yet beat pure Transformers** when I evaluated Falcon-Mamba it got a big fat 0 – these new hybrid guys actually do work and are getting better with each iteration. I hope to see this conclusion flip in the future!

**Qwen3-4B-Instruct-2507 is a little beast** and can replace older 8B with similar if not better performance and lower token usage.

**I need more RTX3090** as these evaluations require up to 100M tokens when the average responses get up to 3-4k.

# Resources

To learn more about ReasonScape evaluations check out the Documentation at [https://reasonscape.com/docs/](https://reasonscape.com/docs/) or grab the latest code from GitHub at [https://github.com/the-crypt-keeper/reasonscape](https://github.com/the-crypt-keeper/reasonscape)

If you enjoyed the plots, check out the M6 explorer [https://reasonscape.com/m6/explorer/](https://reasonscape.com/m6/explorer/) and it’s documentation [https://reasonscape.com/docs/tools/explorer/](https://reasonscape.com/docs/tools/explorer/)

[M6 explorer showing detailed result projections along the Arithmetic surface](https://preview.redd.it/2hwrdrug6skf1.png?width=1848&format=png&auto=webp&s=a5d69ab1018467ca9ef8445d022dd76df0c73544)

To see how these models compare to the rest of the flocks, the full M6 Leaderboard is available at [https://reasonscape.com/m6/leaderboard/](https://reasonscape.com/m6/leaderboard/) (spoiler: **GPT-OSS-20b is a broken mess**) with documentation at [https://reasonscape.com/docs/tools/leaderboard/](https://reasonscape.com/docs/tools/leaderboard/)

Thanks for reading! <3

7 replies

  1. Josefine Voigt · 1 week ago

    Peut-être suis-je bête, mais j’ai lu votre documentation et je ne comprends toujours pas cette ligne : pourriez-vous expliquer ce que vous entendez par « parce que le DC avait un décalage vers le haut correspondant » ? Vous faites référence au changement de grande amplitude près de la fréquence 0 (et qu’il y a beaucoup d’informations conservées dans les très basses fréquences qui ont sauvé l’inférence) ?

    1. Jasmin Herrmann · 1 week ago

      Oui, la composante continue semble être assez importante pour aider le modèle à extraire des informations utiles. À tout moment où je vois un effet de compression de signal le long d’une dimension et que la composante continue ne s’élève pas avec elle, les performances du modèle chutent brusquement, mais si la composante continue s’élève, la perte est moins sévère.

  2. Max Walter · 1 week ago

    Est-ce que quelqu’un a vraiment utilisé Falcon-H1 34B comme véhicule quotidien ? J’aurais aimé l’adorer, mais c’est trop stupide pour suivre les instructions ou ne pas manquer de détails dans un contexte de 8k. En plus, son inférence est vraiment lente sur llama.cpp par rapport aux modèles de transformer de même taille.

    1. Jasmin Herrmann · 5 days ago

      Je n’ai jamais essayé le grand modèle, les poids n’étaient pas encore disponibles lorsque j’ai effectué mes évaluations initiales, mais la famille Falcon-H1 souffre de défaillances importantes avec la complexité des tâches dans presque tous les domaines et son filtrage d’information (et donc sa capacité à suivre les instructions) est généralement médiocre.

      Il génère ces raisonnements qui ont l’air très plausibles, mais qui se trompent complètement sur l’information ou l’opération qui est en cours. Cela semble être une caractéristique unique de la façon dont les SSM se décomposent par rapport aux modèles à attention.

  3. Pauline Engel · 5 days ago

    «Qwen3-4B-Instruct-2507 est un petit monstre» selon mes propres tests, ce modèle est fou, donc je suis d’accord avec vous là-dessus. En fait, ce modèle est tellement bon que j’ai sincèrement du mal à comprendre ce qui se passe ici. C’est tellement un grand pas en avant par rapport à tout ce que nous avons vu jusqu’à présent que je ne sais pas si c’est un modèle optimisé à fond ou si Qwen a concocté un modèle miracle. Je penche plutôt pour le fait que Qwen ait fait quelque chose de spécial ici, mais qui sait…

    1. Jasmin Herrmann · 3 days ago

      La base Qwen3 était déjà très bonne et 2507 l’améliore considérablement. La faiblesse que je vois dans cette famille est le surmenage qui entraîne des troncations sous charges élevées, regardez à quel point la surface booléenne est désagréable. En dehors des problèmes triviaux, il ne me donne pas de réponse en 8K tokens assez souvent.

      Sur mon classement, vous pouvez voir les configurations [rc-medium] de ce modèle où j’utilise un processus externe pour limiter la réflexion à 2k puis forcer une réponse. Le OG 4b maintient la plupart de sa performance mais 2507 s’effondre, il a vraiment besoin de ces tokens supplémentaires. C’est là que ça compte vraiment : aux limites de votre tâche, peut-il encore performer dans un budget de tokens raisonnable ?

  4. Ryan Boyd · 4 days ago

    Cela mérite mille votes positifs !

    Juste quand nous, petits joueurs, nous étions habitués au nouveau méta (qwen 3 8b), un nouveau méta est arrivé.

    Sur un autre sujet. Est-ce que quelqu’un sait quelles sont les limites réelles des licences de modèles NVIDIA et pourquoi ils ne fournissent pas simplement Apache, MIT, etc., comme tout le monde ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *