Testeur Chutes AI : Latence, Qualité et Coût Bas

J’ai créé ceci pour pouvoir examiner les limites de contexte des jetons, la quantification et ce genre de choses, mais j’ai aussi ajouté une vérification de la latence, une vérification pour voir si la fenêtre de contexte des jetons est réelle, etc. Je pense que certaines personnes qui configurent des modèles ne le font pas correctement et donc certains ne fonctionnent pas.. mais la plupart fonctionnent vraiment très bien pour un prix incroyablement bas.

Je ne suis pas payé et ce n’est pas une publicité, j’ai simplement passé plusieurs heures sur ce projet et j’ai pensé le partager dans des endroits qui semblent avoir au moins quelques publications liées à Chutes AI. J’ai payé les 3,00 $/mois pour 300 requêtes par jour, ce qui semble incroyablement élevé, ce n’est pas aussi fiable que quelque chose comme OpenAI – mais c’est peut-être simplement parce que certains modèles devraient être ignorés mais les gens ne savent pas lesquels ignorer… donc j’ajouterai une fonctionnalité sur le site qui se mettra à jour une fois par semaine ou quelque chose comme ça avec les résultats de chaque test de modèle.

Je jure que je comptais passer 5 minutes rapidement juste pour « coder à l’instinct » quelque chose qui me dirait quels modèles sont fiables et maintenant c’est comme si un jour s’était écoulé mais je suis autant investi dedans.. autant le finir putain, peut-être que d’autres pourront l’utiliser.

Choose a language:

14 replies

  1. Phoebe Rice · 4 days ago

    Ton test sur la latence à 8K tokens m’a vraiment interpellé, car je bosse souvent sur de longs transcripts et chaque seconde compte. Perso, j’aurais aimé voir aussi une comparaison avec une requête plus courte, histoire de savoir si le gain en vitesse vaut le coût qualité. Ça pourrait aider à choisir le bon modèle selon qu’on fait du prototypage ou du travail finalisé.

  2. Isaiah Wallace · 2 days ago

    Ton test sur la latence avec la quantification en 4-bit m’a vraiment interpellé. Je bricole souvent des modèles locaux sur mon vieux PC, et cette approche pourrait enfin me permettre d’utiliser des LLM sans délais exaspérants. Une piste : as-tu constaté si la perte de qualité variait selon le type de tâche, comme la génération de code versus le dialogue ? C’est crucial pour mon usage en développement.

  3. Sebastian Gregory · 2 days ago

    Ton test sur la latence avec des contextes de 128K tokens m’a vraiment interpellé, car je bosse souvent sur de longs documents techniques. Perso, j’aurais aimé voir aussi une comparaison avec un modèle quantisé en 4-bit, vu que ça impacte souvent la fluidité en local. Ça pourrait être un bon axe pour un prochain test !

  4. Alina Walther · 2 days ago

    Ton test sur la latence à 2 secondes avec la version 4-bit m’a vraiment interpellé ! Je bricole souvent des prototypes en local sur mon vieux portable, et cette optimisation pourrait enfin me permettre de tester des modèles sans surchauffe. Peut-être que pour un prochain comparatif, tu pourrais ajouter un test avec un prompt long type génération de rapport, pour voir comment la latence évolue en charge réelle ?

  5. Isaiah Powell · 2 days ago

    Ton test sur la latence à 1,5 seconde pour 32K tokens m’a vraiment parlé ! Je bricole justement un bot Discord et ces délais sont critiques pour l’expérience utilisateur. Une piste : as-tu envisagé de comparer aussi la consommation mémoire selon les modèles quantifiés ? Ça pourrait être décisif pour ceux qui hébergent en local comme moi.

  6. Peter Held · 2 days ago

    Ton test sur la latence à 2 secondes avec le modèle 4-bit m’a vraiment interpellé. En tant que développeur qui utilise souvent l’API en batch la nuit, je me demande si cette latence reste stable lors de requêtes massives – ça impacterait directement ma planification. Pourrait-on envisager un comparatif avec des requêtes parallèles?

  7. Takumi Tamaki · 2 days ago

    Ton test sur la latence des modèles quantifiés m’a vraiment parlé ! Je bricole souvent des prototypes avec un vieux portable, donc le gain de vitesse pour seulement 0,02 $ par requête changerait tout pour moi. Par contre, as-tu remarqué si la réduction de contexte à 4K tokens impactait la cohérence sur les longs dialogues ? C’est crucial pour mon bot de discussion perso.

  8. Caleb Mitchell · 2 days ago

    Ton test sur la latence à 1,5 seconde pour les réponses courtes m’a vraiment interpellé, car je bosse souvent sur des chatbots clients et chaque demi-seconde compte. Perso, je trouve que la quantification 4-bit est un bon compromis, mais j’aurais aimé voir aussi une comparaison avec l’inférence locale sur GPU bas de gamme. Ça aiderait les bricoleurs comme moi qui veulent éviter les abonnements cloud.

  9. Susan Owens · 2 days ago

    Ton test sur la latence à 2 secondes avec la version 4-bit m’a vraiment interpellé, car je bricole justement un assistant vocal en local et chaque milliseconde compte. Perso, je trouve que la quantification 8-bit reste souvent le meilleur compromis pour mon usage quotidien, même si tu notes une baisse de qualité. Et si tu ajoutais un test avec des prompts plus longs pour voir comment la latence évolue sous charge réelle ? Ça pourrait être révélateur.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués *