Qwen 3.5 : un Anthropic killer ?

Panda dans la fontaine de Jouvence

La dernière fois, je vous parlais de cure de jouvence. Mais qu'est ce que je faisais quand j'avais 20 ans en fait ? Et bien, outre mes débuts musicaux, si, si, je passais des heures à... compiler des distributions linux, des noyaux, des drivers.
Est ce que j'en avais besoin ? Définissez "besoin" ? Est ce que je passais de bons moments ? Hell yeah !

Je serais bien incapable de passer mon temps à ça maintenant, j'aime quand mes ordinateurs fonctionnent pour que je puisse ensuite en faire quelque chose.
Vraiment ? A qui est ce que tu mens Thierry (oui je me parle, on est plusieurs là dedans 🤪)

Qwen3.5

Mais quel rapport avec Qwen3.5 et surtout qu'est ce que c'est que ce titre d'article ? Pour le titre, c'est en référence à un message échangé aujourd'hui avec l'ami Gouz à qui j'ai dit que moi aussi je pouvais faire des titres sans queue ni tête juste pour provoquer 😉

Mais il y a bien un rapport avec Qwen3.5. Lorsque je me suis fait plaisir l'année dernière en achetant un Mac mini équipé d'un M4 Pro épaulé de 48 Go de mémoire, j'avais en tête de faire tourner localement des modèles d'IA.
Parmi les Stable Diffusion ou les Mistral, j'ai rapidement joué avec des Qwen2.5. Ils étaient disponibles dans des paramétrages raisonnables, des tailles qui ne faisaient pas exploser la machine et avec un peu de précautions, ils arrivaient à me rendre service.

Donc, quand j'ai vu que la série des modèles Qwen3.5 arrivaient, je savais que j'allais essayer d'en faire quelque chose. Par contre, je serais bien incapable de me rappeler pourquoi, tout à coup, j'ai voulu savoir s'il y avait une façon plus performante de les faire tourner. Probablement une discussion de trop avec Philippe ou Stéphane. Ayez des amis comme ça, je vous le conseille, ça donne la pêche et on a toujours une idée de plus à ajouter à ses soirées 🤣

Benchmarker

Bref, je me suis retrouvé à enchaîner les outils, les modèles et un outil de test était en train de voir le jour sur ma machine.
Au final, j'ai enchaîné des tests avec les combinaisons entre les outils pour servir les modèles : - Docker Model Runner - LMStudio - llama.cpp

et les modèles : - hf.co/unsloth/Qwen3.5-0.8B-GGUF:Q4_K_M - hf.co/unsloth/Qwen3.5-4B-GGUF:Q4_K_M - hf.co/unsloth/Qwen3.5-9B-GGUF:Q4_K_S

Pas de Ollama, je n'ai jamais réussi à faire tourner un Qwen3.5 avec. (si quelqu'un a une idée, je veux bien l'ajouter à mes tests).

Les modèles sont généralement des versions quantisées en essayant de trouver un modèle identique pour les 3 backend que j'utilise.

model-smallbenchmark

En parallèle des recherches et téléchargements nécessaires, j'ai assemblé peu à peu, de manière naïve, un outil pour tester 2 éléments : le nombre de token par secondes (tps) et la temps pour avoir le premier token (TTFT).
C'est en lisant quelques articles que je me suis dit que dans mon cas modeste, ces 2 mesures me donneraient déjà un point de départ de comparaison.

J'ai donc mis au point les étapes de ce que j'estimais être nécessaire pour avoir ce genre de mesures. Bien entendu, c'est là que l'emballement de ma cure de jouvence a donné son plein effet. D'une petite CLI, je me suis retrouvé avec un menu pour définir la configuration, une comparaison des différents backend, le tout dans une base sqlite... Bref, un projet que je me dois de vous partager.

Voici donc model-smallbenchmark le bancalement nommé 🎉

Alors, ça donne quoi ?

C'est vrai ça, ça donne quoi au final ? Parce que c'est bien gentil de montrer un outil et de dire avec quoi j'ai joué mais j'ai quand même quelques résultats à partager aussi.

Mon Mac mini me permet donc ce genre de résultats. Et le geek se retourne alors vers lui même et dit : "et alors ?"
Ben rien, il va falloir maintenant que j'utilise ces modèles pour savoir s'ils me sont utiles, si leurs comportements sont corrects et ainsi de suite.

Le passage des tests m'a quand même appris que le modèle 9B faisait tourner le ventilo, mais comme c'était une sollicitation en continu, je verrais si ça se confirme ou pas à l'usage concret.

Que faire maintenant ?

Comme je l'ai dit, il faut maintenant que je revienne au but premier qui était de commencer à utiliser ces modèles. J'ai aussi en tête de commencer à me frotter à un peu de fine tuning comme me l'a inspiré l'article de Philippe sur le fine-tuning de petits modèles.
Je pense aussi retoucher encore mon outil de tests. Si ça peut être utile à quelqu'un, même avec mon approche simple, j'en serais ravi. Et puis au point où j'en suis, pourquoi ne pas aller jusqu'à une belle TUI.

Dites moi ce que vous en pensez 💞