Brouillard sur la ligne

Gros primer voice AI feat. 8 builders queb 🗣️

Francois Lanthier Nadeau
24th avril 2026

Y'a ~deux mois, appel vidéo avec quelqu'un que je respecte.

Le pitch: une startup dans le voice ops. MVP déjà full avancé.

L'invitation: m'impliquer, voire en prendre la tête.

J'ai raccroché, un peu flatté, un peu stressé.

Une invitation comme ça, d'une personne que t'estimes, dans un space en pleine ébullition—tu dis pas non on-the-spot.

Spoiler alert, mais je me pense pas en position de dire oui. SaaSpasse m'occupe full-time, j'ai l'agenda rempli pas mal plus que la batterie. Pis pour être honnête, je comprenais pas assez le voice AI pour commit à quoi que ce soit.

Fait que j'ai fait la seule affaire que je sais faire quand j'ai un angle mort: booker des appels avec du monde plus brillant que moi là-dessus.

J'ai parlé à huit fondateurs en voice AI au Québec.

Aujourd'hui, je te partage ce que j'ai appris—les outils, les patterns, les vrais pains, pis le spectre de monde qui bâtit dans cette industrie-là.

L'édito veut faire deux affaires en même temps: te donner un primer solide sur les bases du voice AI (architectures, terminologie, trade-offs), pis t'exposer aux enjeux réels quand tu build dans ce space.

Un p'tit caveat avant de plonger: le voice AI bouge vite en tabarouette. Des affirmations ici pourraient être incomplètes. Si t'as de l'info qui nuance ou contredit, commente sous le post LinkedIn de cet édito ou reply direct—je peux mettre à jour la version web.

On part.

C'est quoi un voice agent en 2026

Okay, mettons un bot, c'est le vieux "faites le 1 pour français"—arbre de décision rigide, cul-de-sac garantis. Un agent, c'est un système dynamique propulsé par des modèles AI. Ça raisonne, appelle des tools, gère le flow d'une vraie conversation.

Sous le capot, deux grandes familles d'architectures.

Le pipeline en cascade enchaîne trois modèles séparés, souvent chez trois fournisseurs différents.

STT (speech-to-text) = les oreilles. LLM = le cerveau. TTS (text-to-speech) = la bouche. Exemple: Deepgram pour entendre, OpenAI pour penser, ElevenLabs pour parler. Chaque bloc se swap indépendamment—c'est là que vient la flexibilité.

Ça a l'air lent dit de même, trois étapes en série. Mais grâce au streaming, chaque bloc commence à travailler avant que le précédent ait fini. La transcription sort mot par mot, le LLM commence à générer avant la fin de la phrase, le TTS parle avant que le LLM finisse sa réponse. Comme Netflix—tu regardes un chunk de KPop Demon Hunters pendant que le prochain download. Pas besoin d'attendre la vidéo complète.

J'écoute pas KPop Demon Hunters pour vrai, je trouvais juste ça drôle. Écris-moi pas pour qu'on bond sur notre amour du KPop, ça marchera pas.

Le realtime (aussi speech-to-speech)—un seul modèle multimodal qui prend de l'audio et émet de l'audio. Pas de texte entre les deux, pas de traduction interne. Le modèle "pense" directement en tokens audio. OpenAI Realtime, Gemini Live, ElevenLabs Conversational—les gros providers.

Note: au début, je pensais que streaming et realtime c'était la même affaire. Pas pantoute. Le streaming, c'est une optimisation du pipeline en cascade. Le realtime, c'est une architecture complètement différente.

Et le voice ops dans tout ça?

Ops, c'est le tooling qui t'aide à opérer une techno complexe en production—pas juste à la build. Pense DevOps (apps + infra), FinOps (coûts cloud e.g. Stable), MLOps (modèles ML). Voice ops suit le même pattern: outils pour opérer des voice agents en prod. Testing, monitoring, evals, compliance, permissioning, versioning, observabilité par couche.

La boîte à outils pour pas gérer tes agents dans le noir.

Le LLM, c'est le nerf de la guerre

Première chose que plusieurs fondateurs m'ont clarifiée, chiffres en main: dans un pipeline en cascade qui fonctionne bien, le STT et le TTS prennent à peine 100-150 millisecondes combinés. Le reste de la latence vient du LLM.

85% à 90% de la latence totale = le cerveau qui pense.

Deepgram, Whisper, ElevenLabs, Google TTS—les oreilles et la bouche sont devenues des commodités. La plupart des fondateurs choisissent leur STT/TTS selon la latence publiée ou les coûts, swap quand un meilleur modèle sort, pis passent à autre chose.

Ce qui occupe plusieurs builders, c'est le LLM. Quel modèle? Quel provider? Quand switcher? Comment abstraire les providers pour pouvoir pivoter rapidement? Comment l'équiper avec les bons tools? Comment le contrôler avec des guardrails?

Des outils comme OpenRouter permettent d'abstraire plusieurs LLMs derrière une interface unifiée. Un fondateur à qui j'ai parlé s'en sert pour tester différents providers pis identifier les outliers de latence dans ses logs—pas pour faire du swap automatique mid-call, mais pour garder la flexibilité de pivoter quand un provider devient moins bon.

OK mais pourquoi pas juste du realtime dans ce cas-là?

Bonne question, que je me suis posée aussi.

Les modèles speech-to-speech (OpenAI Realtime, Gemini Live) promettent du sub-500ms, intonation préservée, interruptions naturelles. Sur papier, la solution élégante au problème de latence.

Dans la vraie vie?

Les modèles realtime ont été bâtis pour de la conversation naturelle—moins de guardrails, moins de tool calls précis, moins de logique business entre l'écoute pis la réponse. Un design optimisé pour la fluidité d'échange, moins pour les workflows business sérieux (B2B ou B2C). Ce qui est magnifique en démo devient problématique quand ton agent doit: vérifier une identité avant de donner accès à un dossier, rejeter une question hors-scope avec un message compliance-approved, appeler ton CRM au bon moment dans la conversation, ou se brancher sur un état précis d'un workflow pré-défini.

Les founders à qui j'ai parlé qui ont essayé du realtime en prod sont revenus au pipeline en cascade. La raison qui revient: le contrôle.

Dans un pipeline, chaque étape (STT → LLM → TTS) est une fenêtre où tu peux injecter de la logique. Valider le transcript avant de l'envoyer au LLM. Vérifier la réponse avant le TTS. Trigger un tool call précis à un moment précis. Logger pour compliance. En realtime, tout se passe dans la boîte noire du modèle multimodal—t'as pas de fenêtre de contrôle.

Le realtime a été designé pour un autre job-to-be-done: des interactions naturelles ouvertes. Les workflows business avec guardrails, compliance et tool calling chirurgical appartiennent à un terrain différent.

Résultat: en 2026, le pipeline en cascade gagne dans la vraie vie. Le realtime impressionne en démo mais attend son fit production.

"Siri nous a traumatisés"

C'est pas ma phrase—c'est un fondateur qui me l'a lâchée pendant un appel, pis elle m'est restée.

Il m'a raconté une anecdote pour l'illustrer: ses enfants de 9-10 ans, quand ils ont une question, ils ouvrent Gemini en mode voix direct. Pas de screen first, pas de typing. Juste "Gemini, peux-tu m'expliquer..." Ils trouvent ça normal, fluide, efficace.

Nous autres les adultes...

On a eu Siri 2011, Alexa 2014, Okay GooGoo je sais pu trop quand. Un paquet d'assistants vocaux qui comprenaient pas notre accent, qui répondaient mal, ou qui nous balançaient des résultats Google en mode "voici ce que j'ai trouvé sur le web". Conditionnement classique: tu te brûles assez souvent, tu arrêtes d'essayer.

Résultat: on est plus lents à adopter les interfaces vocales nouvelle génération—même quand elles sont rendues vraiment bonnes.

J'ai vécu une version de ce biais moi aussi. Circa 2018, je jouais avec les modèles speech-to-text pour des besoins perso. L'expérience était… meh. Transcription croche, latence éternelle, frustration quotidienne. Fast-forward à 2024-2025: des outils comme Super Whisper pis Monologue sortent, pis ils sont sharp. Mais moi j'ai pris du temps avant de les essayer—mon cerveau était encore en mode "ça va pas marcher". J'ai manqué plusieurs mois d'usage à cause de mes vieux réflexes.

Le twist dans l'autre sens, que j'ai aussi entendu: certaines entreprises demandent explicitement des voix moins naturelles pour leurs agents. Genre des répondeurs automatiques à menus style "faites le 1 pour français" (ce qu'on appelle dans le jargon un IVR, pour Interactive Voice Response). Pourquoi? Parce que leurs clients se méfient du trop-vrai. Se faire duper par un agent qui sonne humain = pire que savoir d'avance que c'est un robot.

Donc t'as deux dynamiques qui jouent en parallèle:

Les jeunes qui adoptent la voice AI naturellement, parce qu'ils ont pas le bagage Siri
Les adultes qui se méfient, pis certains clients enterprises qui veulent qu'on leur dise clairement "c'est un bot"

La techno évolue vite. Nos habitudes, moins.

Qu'est-ce qui fait le plus mal aux builders?

J'ai demandé à chaque fondateur c'est quoi qui leur fait le plus mal au quotidien.

Quatre patterns reviennent.

1. Le QA se fait encore à la mitaine

Comment tu testes un voice agent avant de le ship en prod? Comment tu monitores la qualité des appels en live?

T'appelles l'agent toi-même, t'écoutes, t'ajustes à l'oreille.

J'exagère à peine. Plusieurs fondateurs à qui j'ai parlé—même ceux qui pèsent des milliers d'appels par mois—font encore du QA en appelant leurs propres agents pis en jugeant manuellement. Ça QA au feeling pas mal (for now).

Des outils voice ops émergent depuis 12-18 mois pour régler ça: simulation de scénarios, monitoring par couche (latence et qualité mesurées séparément pour le STT, le LLM et le TTS), évaluation automatisée via LLM-as-judge. Plusieurs joueurs sérieux sont dans le space.

Mais l'adoption chez les builders à qui j'ai parlé? Faible.

Certains ont ça sur leur roadmap à faire éventuellement. D'autres build leur propre tooling maison parce que les outils existants matchent pas leur stack. Je l'ai senti comme super important mais pas urgent mettons.

La catégorie "voice ops" est émergente, avec une vraie proposition de valeur, mais le reach vers ces outils semble pas fort en date d'aujourd'hui. Y'a un gap entre "ça existe, c'est cool" pis "on l'utilise en prod".

Pourquoi? Peut-être que le pain est pas encore assez aigu. Peut-être que les builders sont trop occupés à bâtir leur produit pour investir dans les outils autour. Peut-être les deux.

2. Un voice agent n'a pas de budget de tolérance

Of course les humains mess up au téléphone—tout le monde a sa collection d'appels frustrants. Mais avec un humain comme toi ("the devil you know"), y'a un minimum de bonne foi préchargée. Il a mal compris? Stressé? Fatigué? Tu lui donnes une chance.

Le voice AI part à zéro sur ce plan-là. Aucune banque de bonne foi préchargée.

Pis quand il fait des erreurs, elles sont qualitativement différentes:

Figer 5-10 secondes mid-phrase
Rire tout seul à un endroit random
Inventer des infos qui existent pas dans ton dossier
Sortir un artefact audio weird (voix qui craque, pitch qui change)
Perdre le contexte après 3-4 échanges
Répéter une réponse qu'il t'a déjà donnée

Ces failures sentent le système cassé. Chaque glitch ajoute à une méfiance qui monte vite.

Le voice AI n'a aucun budget de tolérance. L'accumulation de hiccups coûte disproportionnellement cher en trust.

Pis c'est un pain transversal—il amplifie tous les autres.

3. L'autre mur: le change management interne

Disons que t'as réglé la fiabilité techno. Dope!

Y'a un autre mur devant toi.

Un fondateur l'a flaggé directement comme une friction terrain:

Tes 200, 500, 1000 appels par jour roulent en prod sans que personne puisse les écouter tous en temps réel. Le monitoring back-end est pas toujours fine-tuned, le tracing capture pas toujours ce qu'il faudrait pour comprendre les hiccups après coup. Ton agent parle au nom de ta brand pendant que tu dors.

Tu vas me dire:

Même affaire si ce sont des humains?

Mmm, "noui". Le volume d'appels peut exploser avec des agents vs des humains. Plus de surface où foutre la merde dans ta compagnie, vu que ça scale, justement. Sinon, un humain a quand même l'incitatif de faire une bonne job, ou juste... garder sa job. Pis l'humain sait que ses appels peuvent être enregistrés et écoutés par sa boss.

Ça demande un acte de foi opérationnel de la part du client.

Pis la tolérance varie selon l'industrie. Un cabinet de thérapeutes pis un garage, c'est pas le même niveau d'enjeu si l'agent répond mal une fois.

Le frein est autant humain que technique. Pis c'est une friction que les startups en voice AI traverse client par client.

4. L'argent, pas juste le temps

Full disclosure: j'ai commencé mes appels en pensant que la latence était LE pain #1 des voice agents. Ça me semblait évident—tout le monde en parle, c'est le KPI central dans les démos, c'est ce qui distingue "ça feel humain" de "ça feel cassé".

Mais un CEO m'a nuancé ça dès le début de notre appel.

Pour lui, la latence reste un concern réel. Mais la vraie douleur quotidienne, c'est la prévisibilité des coûts.

Pourquoi? Parce que les outils et les modèles que tu utilises dans ta stack voice AI bougent leur pricing. Des changements de tarification qui peuvent rendre ton operation pas sustainable du jour au lendemain.

Exemple concret qu'il m'a donné: facturer via la couche agentique d'un vendor populaire (la version turnkey où le vendor gère tout le pipeline pour toi) peut coûter plusieurs fois plus cher que d'appeler directement l'API des mêmes LLM, STT et TTS sous-jacents—dans son cas, il parlait de 4-5x. Pis la variabilité est wild selon lui—dupliquer deux agents identiques (mêmes instructions, mêmes LLM) peut générer des prix qui oscillent entre 20¢ et 80¢ d'un appel à l'autre. Bonne chance pour pricer tes clients en aval.

Plusieurs fondateurs à qui j'ai parlé ont fini par sortir du stack vendor populaire quand ils ont scalé. Ils rebuildent des morceaux à partir des APIs plus basiques, abstractent leurs LLMs pour pouvoir swap vite, cherchent de la prévisibilité à tout prix.

Le stack standard, c'est un point de départ.

5. Compréhension vs exécution

Cette citation [légérement modifiée] d'un fondateur pendant notre appel me trotte dans la tête:

"Le vibe-code de features prend 30 secondes. L'intelligence opérationnelle derrière, ça m'a pris 4 mois."

Contexte: il build un voice agent vertical dans une industrie spécifique. Le vibe-code facile, c'est typer un prompt, générer un CRUD, setup les APIs, déployer. Claude Code, Cursor, Codex, peu importe. Builder une app c'est facile.

Les 4 mois, c'est autre chose.

C'est mapper le domaine métier de ses clients de façon structurée:

Les services offerts par ses clients
Les variantes de prix selon le plan, la localisation, le tier
Les professionnels qui peuvent livrer quel service
Les horaires, les contraintes, les exceptions
Les règles qui peuvent pas être déduites logiquement (exceptions historiques, deals particuliers avec certains clients, politiques maison qui vivent dans la tête du patron)

Cette couche-là se gagne seulement en passant du temps avec le client, dans son métier, à débusquer les edge cases qui n'apparaissent nulle part dans la documentation officielle.

Pour un fondateur voice AI, c'est un moat potentiellement intéressant—qui ressemble d'ailleurs au moat classique du Vertical SaaS. Le code qui entoure l'agent, des dizaines d'autres peuvent le rebuild en un week-end. La carte détaillée du domaine opérationnel, c'est des mois de terrain qui se copient mal.

Les fondateurs qui scalent l'ont compris. Ils trackent leurs apprentissages. Ils buildent leur playbook domaine comme un asset à part entière, distinct de leur codebase.

Le brouillard sur la ligne

Un truc m'a frappé en compilant mes notes: les huit fondateurs à qui j'ai parlé construisent des business fondamentalement différentes les unes des autres.

T'as un fondateur non-technique qui vise une verticale spécifique, qui déverrouille tout par la connaissance métier. T'as des jeunes fondateurs avec le couteau entre les dents, qui attaquent un angle d'abord horizontal pis ship vite. T'as un fondateur hyper focused, avec une équipe super technique, qui maximise la souveraineté des données et de la stack.

Fun fact: je m’attendais à ce que la souveraineté des données et de l’infra soit un enjeu plus top-of-mind dans mes discussions, mais pas tant. Dépend de plein trucs, et sujet pour un autre édito, hehe.

Pis y'a un autre axe qui traverse ça: t'en as qui n'hésitent pas à payer pour des applications ou des plateformes turnkey pour bouger plus vite, t'en as d'autres qui leverage l'open source pis l'agentic coding pour tout développer à l'interne.

Mettons que j'ai utilisé le terme "space" très largement pour rassembler tout ce beau monde-là en voice AI. Y'ont des thèses radicalement différentes. Stacks différents. Stratégies différentes.

C'est le signe d'un space qui est encore tôt—personne s'entend sur c'est quoi le bon playbook, parce qu'il y en a pas encore un.

Le titre de l'édito, il vient de cette sensation qui m'est revenue à chaque appel: ce space-là est dans un pas pire fog of war. Meh, pas juste ce space, I guess.

T'as des applications construites par-dessus des modèles, qui cherchent à se verticaliser ou s'horizontaliser le plus vite possible avant que quelqu'un d'autre claim leur niche ou leur positionnement universel. T'as des gros labs (OpenAI, Google, ElevenLabs) qui ship leurs propres applications pis qui mangent des parts de marché que les apps pensaient à eux. Pis t'as des outils voice ops in-between (comme celui que mon ami m'a pitché, ou Coval, Cekura, Roark, Hamming) qui occupent un créneau réel mais potentiellement fragile—vulnérables d'un côté si les plateformes model montent dans le ops, vulnérables de l'autre si les apps descendent dans le ops elles-mêmes.

Un timing intéressant. Un squeeze réel aussi?

Si t’as un take pour m’éduquer sur la défensibilité et longévité des startups en voice ops, écris-moi stp.

Est-ce que je vais prendre la tête de cette startup? Je le sais pas encore au moment où tu lis ça. Probablement pas. Mais bâtir dans le voice AI en 2026, ça demande un certain appétit pour le chaos pis l'incertitude—le brouillard sur la ligne fait partie de la job.

Remerciements

Merci à tous ceux qui m'ont écrit ou DM pour m'offrir de jaser—j'ai pas eu le temps de prendre tous les calls ni de répondre à tout le monde. Je vais essayer de faire une autre passe plus tard cette année.

Pour les huit qui ont pris le temps de me parler directement, gros merci. Toutes les opinions dans ce texte sont les miennes—plusieurs insights qui se recoupent viennent d'eux:

Thomas Ferland (Angel Softwares)
Vincent Lamanna (Crewdle)
Sylvain Boily (RoomKit)
Alexis Boucher et Benjamin Philion (Solving.ai)
Felix Simard (Dimedove)
Sasha Denouvilliez-Pech (Vatel)
Marc Obeid (Walaw)
William Garneau (NordAI)

Si tu bâtis dans le voice AI au Québec pis que tu veux jaser—reply à cet édito.

—

Cheers,

Frank 💜

Gros jalon pour Unicorne 🦄

Belle réussite pour nos amis chez Unicorne 🦄

Leur produit Stable vient de franchir les 30M$ de dépenses AWS optimisées.

L'optimisation cloud, c'est pas juste couper du gras. C'est libérer du budget pour ce qui fait vraiment avancer ta business.

Stable donne aux équipes le contrôle et la visibilité qu'elles méritent : alertes plus tôt, meilleure lecture des variations de dépenses, recommandations sur lesquelles tu peux réellement te fier.

Félicitations à toute l'équipe 💜

D'ailleurs, on avait enregistré une capsule sur Stable l'an passé si tu veux en savoir plus :

95% du web n’a pas d’API 🌐

"95% du web n'a pas d'API." 🌐

Zapier, Make, les gros joueurs d'automation → ils connectent les apps qui ont des API.

Mais le reste? Cliniques médicales, assureurs, sites legacy... Pour eux, construire une API pour les devs, ce n'est pas la priorité.

La mission de Deck: donner accès au 95% du web qui n'a jamais été pensé pour être accessible.

Quand ton board vote contre toi sans le dire

Guillaume Falardeau de Leviat Legal a décortiqué un cas qui devrait faire suer pas mal de founders.

Le scénario : une compagnie se vend. Les VCs récupèrent leur mise. Les fondateurs et employés obtiennent zéro. Et 6 des 7 membres du board avaient des conflits d'intérêts.

CEO avec un bonus négocié en secret avec l'acheteur. CFO idem. Administrateur "indépendant" qui investissait dans les fonds du VC. Beau comité.

C'est quoi le dual fiduciary, pourquoi ta waterfall de liquidation peut te coûter des millions, et comment te protéger avant que ce soit urgent — Guillaume l'explique clairement.

Genre de post que tu lis maintenant, pas juste quand t'en as besoin. 👇

Rejoins les SaaSpals 👇

Merci tellement à tous nos SaaSpals. Votre support nous motive BIG TIME.

Partenaires certifiés SaaSpasse 💜

HUGE merci à tous nos partenaires certifiés pour cette année :

Le Chiffre 🧾
Leviat 👨‍⚖️
Baseline 🤖
Unicorne 🌩️
Finalta Capital 💰

Podcast

Voici le dernier épisode du pod :

→ Ep.178 - Le gardien des héritages (40M$, death tech & AI)

Pas encore abonné au pod? Let’s go :

Okay bobye!

Reply

or to participate.