Brouillard sur la ligne

Gros primer voice AI feat. 8 builders queb đŸ—Łïž

Y'a ~deux mois, appel vidéo avec quelqu'un que je respecte.

Le pitch: une startup dans le voice ops. MVP déjà full avancé.

L'invitation: m'impliquer, voire en prendre la tĂȘte.

J'ai raccroché, un peu flatté, un peu stressé.

Une invitation comme ça, d'une personne que t'estimes, dans un space en pleine Ă©bullition—tu dis pas non on-the-spot.

Spoiler alert, mais je me pense pas en position de dire oui. SaaSpasse m'occupe full-time, j'ai l'agenda rempli pas mal plus que la batterie. Pis pour ĂȘtre honnĂȘte, je comprenais pas assez le voice AI pour commit Ă  quoi que ce soit.

Fait que j'ai fait la seule affaire que je sais faire quand j'ai un angle mort: booker des appels avec du monde plus brillant que moi lĂ -dessus.

J'ai parlé à huit fondateurs en voice AI au Québec.

Aujourd'hui, je te partage ce que j'ai appris—les outils, les patterns, les vrais pains, pis le spectre de monde qui bñtit dans cette industrie-là.

L'Ă©dito veut faire deux affaires en mĂȘme temps: te donner un primer solide sur les bases du voice AI (architectures, terminologie, trade-offs), pis t'exposer aux enjeux rĂ©els quand tu build dans ce space.

Un p'tit caveat avant de plonger: le voice AI bouge vite en tabarouette. Des affirmations ici pourraient ĂȘtre incomplĂštes. Si t'as de l'info qui nuance ou contredit, commente sous le post LinkedIn de cet Ă©dito ou reply direct—je peux mettre Ă  jour la version web.

On part.

C'est quoi un voice agent en 2026

Okay, mettons un bot, c'est le vieux "faites le 1 pour français"—arbre de dĂ©cision rigide, cul-de-sac garantis. Un agent, c'est un systĂšme dynamique propulsĂ© par des modĂšles AI. Ça raisonne, appelle des tools, gĂšre le flow d'une vraie conversation.

Sous le capot, deux grandes familles d'architectures.

Le pipeline en cascade enchaßne trois modÚles séparés, souvent chez trois fournisseurs différents.

STT (speech-to-text) = les oreilles. LLM = le cerveau. TTS (text-to-speech) = la bouche. Exemple: Deepgram pour entendre, OpenAI pour penser, ElevenLabs pour parler. Chaque bloc se swap indĂ©pendamment—c'est lĂ  que vient la flexibilitĂ©.

Ça a l'air lent dit de mĂȘme, trois Ă©tapes en sĂ©rie. Mais grĂące au streaming, chaque bloc commence Ă  travailler avant que le prĂ©cĂ©dent ait fini. La transcription sort mot par mot, le LLM commence Ă  gĂ©nĂ©rer avant la fin de la phrase, le TTS parle avant que le LLM finisse sa rĂ©ponse. Comme Netflix—tu regardes un chunk de KPop Demon Hunters pendant que le prochain download. Pas besoin d'attendre la vidĂ©o complĂšte.

J'Ă©coute pas KPop Demon Hunters pour vrai, je trouvais juste ça drĂŽle. Écris-moi pas pour qu'on bond sur notre amour du KPop, ça marchera pas.

Le realtime (aussi speech-to-speech)—un seul modĂšle multimodal qui prend de l'audio et Ă©met de l'audio. Pas de texte entre les deux, pas de traduction interne. Le modĂšle "pense" directement en tokens audio. OpenAI Realtime, Gemini Live, ElevenLabs Conversational—les gros providers.

Note: au dĂ©but, je pensais que streaming et realtime c'Ă©tait la mĂȘme affaire. Pas pantoute. Le streaming, c'est une optimisation du pipeline en cascade. Le realtime, c'est une architecture complĂštement diffĂ©rente.

Et le voice ops dans tout ça?

Ops, c'est le tooling qui t'aide Ă  opĂ©rer une techno complexe en production—pas juste Ă  la build. Pense DevOps (apps + infra), FinOps (coĂ»ts cloud e.g. Stable), MLOps (modĂšles ML). Voice ops suit le mĂȘme pattern: outils pour opĂ©rer des voice agents en prod. Testing, monitoring, evals, compliance, permissioning, versioning, observabilitĂ© par couche.

La boßte à outils pour pas gérer tes agents dans le noir.

Le LLM, c'est le nerf de la guerre

PremiÚre chose que plusieurs fondateurs m'ont clarifiée, chiffres en main: dans un pipeline en cascade qui fonctionne bien, le STT et le TTS prennent à peine 100-150 millisecondes combinés. Le reste de la latence vient du LLM.

85% Ă  90% de la latence totale = le cerveau qui pense.

Deepgram, Whisper, ElevenLabs, Google TTS—les oreilles et la bouche sont devenues des commoditĂ©s. La plupart des fondateurs choisissent leur STT/TTS selon la latence publiĂ©e ou les coĂ»ts, swap quand un meilleur modĂšle sort, pis passent Ă  autre chose.

Ce qui occupe plusieurs builders, c'est le LLM. Quel modÚle? Quel provider? Quand switcher? Comment abstraire les providers pour pouvoir pivoter rapidement? Comment l'équiper avec les bons tools? Comment le contrÎler avec des guardrails?

Des outils comme OpenRouter permettent d'abstraire plusieurs LLMs derriĂšre une interface unifiĂ©e. Un fondateur Ă  qui j'ai parlĂ© s'en sert pour tester diffĂ©rents providers pis identifier les outliers de latence dans ses logs—pas pour faire du swap automatique mid-call, mais pour garder la flexibilitĂ© de pivoter quand un provider devient moins bon.

OK mais pourquoi pas juste du realtime dans ce cas-lĂ ?

Bonne question, que je me suis posée aussi.

Les modÚles speech-to-speech (OpenAI Realtime, Gemini Live) promettent du sub-500ms, intonation préservée, interruptions naturelles. Sur papier, la solution élégante au problÚme de latence.

Dans la vraie vie?

Les modĂšles realtime ont Ă©tĂ© bĂątis pour de la conversation naturelle—moins de guardrails, moins de tool calls prĂ©cis, moins de logique business entre l'Ă©coute pis la rĂ©ponse. Un design optimisĂ© pour la fluiditĂ© d'Ă©change, moins pour les workflows business sĂ©rieux (B2B ou B2C). Ce qui est magnifique en dĂ©mo devient problĂ©matique quand ton agent doit: vĂ©rifier une identitĂ© avant de donner accĂšs Ă  un dossier, rejeter une question hors-scope avec un message compliance-approved, appeler ton CRM au bon moment dans la conversation, ou se brancher sur un Ă©tat prĂ©cis d'un workflow prĂ©-dĂ©fini.

Les founders à qui j'ai parlé qui ont essayé du realtime en prod sont revenus au pipeline en cascade. La raison qui revient: le contrÎle.

Dans un pipeline, chaque Ă©tape (STT → LLM → TTS) est une fenĂȘtre oĂč tu peux injecter de la logique. Valider le transcript avant de l'envoyer au LLM. VĂ©rifier la rĂ©ponse avant le TTS. Trigger un tool call prĂ©cis Ă  un moment prĂ©cis. Logger pour compliance. En realtime, tout se passe dans la boĂźte noire du modĂšle multimodal—t'as pas de fenĂȘtre de contrĂŽle.

Le realtime a été designé pour un autre job-to-be-done: des interactions naturelles ouvertes. Les workflows business avec guardrails, compliance et tool calling chirurgical appartiennent à un terrain différent.

Résultat: en 2026, le pipeline en cascade gagne dans la vraie vie. Le realtime impressionne en démo mais attend son fit production.

"Siri nous a traumatisés"

C'est pas ma phrase—c'est un fondateur qui me l'a lĂąchĂ©e pendant un appel, pis elle m'est restĂ©e.

Il m'a raconté une anecdote pour l'illustrer: ses enfants de 9-10 ans, quand ils ont une question, ils ouvrent Gemini en mode voix direct. Pas de screen first, pas de typing. Juste "Gemini, peux-tu m'expliquer..." Ils trouvent ça normal, fluide, efficace.

Nous autres les adultes...

On a eu Siri 2011, Alexa 2014, Okay GooGoo je sais pu trop quand. Un paquet d'assistants vocaux qui comprenaient pas notre accent, qui rĂ©pondaient mal, ou qui nous balançaient des rĂ©sultats Google en mode "voici ce que j'ai trouvĂ© sur le web". Conditionnement classique: tu te brĂ»les assez souvent, tu arrĂȘtes d'essayer.

RĂ©sultat: on est plus lents Ă  adopter les interfaces vocales nouvelle gĂ©nĂ©ration—mĂȘme quand elles sont rendues vraiment bonnes.

J'ai vĂ©cu une version de ce biais moi aussi. Circa 2018, je jouais avec les modĂšles speech-to-text pour des besoins perso. L'expĂ©rience Ă©tait
 meh. Transcription croche, latence Ă©ternelle, frustration quotidienne. Fast-forward Ă  2024-2025: des outils comme Super Whisper pis Monologue sortent, pis ils sont sharp. Mais moi j'ai pris du temps avant de les essayer—mon cerveau Ă©tait encore en mode "ça va pas marcher". J'ai manquĂ© plusieurs mois d'usage Ă  cause de mes vieux rĂ©flexes.

Le twist dans l'autre sens, que j'ai aussi entendu: certaines entreprises demandent explicitement des voix moins naturelles pour leurs agents. Genre des répondeurs automatiques à menus style "faites le 1 pour français" (ce qu'on appelle dans le jargon un IVR, pour Interactive Voice Response). Pourquoi? Parce que leurs clients se méfient du trop-vrai. Se faire duper par un agent qui sonne humain = pire que savoir d'avance que c'est un robot.

Donc t'as deux dynamiques qui jouent en parallĂšle:

  • Les jeunes qui adoptent la voice AI naturellement, parce qu'ils ont pas le bagage Siri

  • Les adultes qui se mĂ©fient, pis certains clients enterprises qui veulent qu'on leur dise clairement "c'est un bot"

La techno évolue vite. Nos habitudes, moins.

Qu'est-ce qui fait le plus mal aux builders?

J'ai demandé à chaque fondateur c'est quoi qui leur fait le plus mal au quotidien.

Quatre patterns reviennent.

1. Le QA se fait encore Ă  la mitaine

Comment tu testes un voice agent avant de le ship en prod? Comment tu monitores la qualité des appels en live?

T'appelles l'agent toi-mĂȘme, t'Ă©coutes, t'ajustes Ă  l'oreille.

J'exagĂšre Ă  peine. Plusieurs fondateurs Ă  qui j'ai parlé—mĂȘme ceux qui pĂšsent des milliers d'appels par mois—font encore du QA en appelant leurs propres agents pis en jugeant manuellement. Ça QA au feeling pas mal (for now).

Des outils voice ops émergent depuis 12-18 mois pour régler ça: simulation de scénarios, monitoring par couche (latence et qualité mesurées séparément pour le STT, le LLM et le TTS), évaluation automatisée via LLM-as-judge. Plusieurs joueurs sérieux sont dans le space.

Mais l'adoption chez les builders à qui j'ai parlé? Faible.

Certains ont ça sur leur roadmap à faire éventuellement. D'autres build leur propre tooling maison parce que les outils existants matchent pas leur stack. Je l'ai senti comme super important mais pas urgent mettons.

La catégorie "voice ops" est émergente, avec une vraie proposition de valeur, mais le reach vers ces outils semble pas fort en date d'aujourd'hui. Y'a un gap entre "ça existe, c'est cool" pis "on l'utilise en prod".

Pourquoi? Peut-ĂȘtre que le pain est pas encore assez aigu. Peut-ĂȘtre que les builders sont trop occupĂ©s Ă  bĂątir leur produit pour investir dans les outils autour. Peut-ĂȘtre les deux.

2. Un voice agent n'a pas de budget de tolérance

Of course les humains mess up au tĂ©lĂ©phone—tout le monde a sa collection d'appels frustrants. Mais avec un humain comme toi ("the devil you know"), y'a un minimum de bonne foi prĂ©chargĂ©e. Il a mal compris? StressĂ©? FatiguĂ©? Tu lui donnes une chance.

Le voice AI part à zéro sur ce plan-là. Aucune banque de bonne foi préchargée.

Pis quand il fait des erreurs, elles sont qualitativement différentes:

  • Figer 5-10 secondes mid-phrase

  • Rire tout seul Ă  un endroit random

  • Inventer des infos qui existent pas dans ton dossier

  • Sortir un artefact audio weird (voix qui craque, pitch qui change)

  • Perdre le contexte aprĂšs 3-4 Ă©changes

  • RĂ©pĂ©ter une rĂ©ponse qu'il t'a dĂ©jĂ  donnĂ©e

Ces failures sentent le systÚme cassé. Chaque glitch ajoute à une méfiance qui monte vite.

Le voice AI n'a aucun budget de tolérance. L'accumulation de hiccups coûte disproportionnellement cher en trust.

Pis c'est un pain transversal—il amplifie tous les autres.

3. L'autre mur: le change management interne

Disons que t'as réglé la fiabilité techno. Dope!

Y'a un autre mur devant toi.

Un fondateur l'a flaggé directement comme une friction terrain:

Tes 200, 500, 1000 appels par jour roulent en prod sans que personne puisse les écouter tous en temps réel. Le monitoring back-end est pas toujours fine-tuned, le tracing capture pas toujours ce qu'il faudrait pour comprendre les hiccups aprÚs coup. Ton agent parle au nom de ta brand pendant que tu dors.

Tu vas me dire:

MĂȘme affaire si ce sont des humains?

Mmm, "noui". Le volume d'appels peut exploser avec des agents vs des humains. Plus de surface oĂč foutre la merde dans ta compagnie, vu que ça scale, justement. Sinon, un humain a quand mĂȘme l'incitatif de faire une bonne job, ou juste... garder sa job. Pis l'humain sait que ses appels peuvent ĂȘtre enregistrĂ©s et Ă©coutĂ©s par sa boss.

Ça demande un acte de foi opĂ©rationnel de la part du client.

Pis la tolĂ©rance varie selon l'industrie. Un cabinet de thĂ©rapeutes pis un garage, c'est pas le mĂȘme niveau d'enjeu si l'agent rĂ©pond mal une fois.

Le frein est autant humain que technique. Pis c'est une friction que les startups en voice AI traverse client par client.

4. L'argent, pas juste le temps

Full disclosure: j'ai commencĂ© mes appels en pensant que la latence Ă©tait LE pain #1 des voice agents. Ça me semblait Ă©vident—tout le monde en parle, c'est le KPI central dans les dĂ©mos, c'est ce qui distingue "ça feel humain" de "ça feel cassĂ©".

Mais un CEO m'a nuancé ça dÚs le début de notre appel.

Pour lui, la latence reste un concern réel. Mais la vraie douleur quotidienne, c'est la prévisibilité des coûts.

Pourquoi? Parce que les outils et les modĂšles que tu utilises dans ta stack voice AI bougent leur pricing. Des changements de tarification qui peuvent rendre ton operation pas sustainable du jour au lendemain.

Exemple concret qu'il m'a donnĂ©: facturer via la couche agentique d'un vendor populaire (la version turnkey oĂč le vendor gĂšre tout le pipeline pour toi) peut coĂ»ter plusieurs fois plus cher que d'appeler directement l'API des mĂȘmes LLM, STT et TTS sous-jacents—dans son cas, il parlait de 4-5x. Pis la variabilitĂ© est wild selon lui—dupliquer deux agents identiques (mĂȘmes instructions, mĂȘmes LLM) peut gĂ©nĂ©rer des prix qui oscillent entre 20Âą et 80Âą d'un appel Ă  l'autre. Bonne chance pour pricer tes clients en aval.

Plusieurs fondateurs Ă  qui j'ai parlĂ© ont fini par sortir du stack vendor populaire quand ils ont scalĂ©. Ils rebuildent des morceaux Ă  partir des APIs plus basiques, abstractent leurs LLMs pour pouvoir swap vite, cherchent de la prĂ©visibilitĂ© Ă  tout prix.

Le stack standard, c'est un point de départ.

5. Compréhension vs exécution

Cette citation [lĂ©gĂ©rement modifiĂ©e] d'un fondateur pendant notre appel me trotte dans la tĂȘte:

"Le vibe-code de features prend 30 secondes. L'intelligence opérationnelle derriÚre, ça m'a pris 4 mois."

Contexte: il build un voice agent vertical dans une industrie spécifique. Le vibe-code facile, c'est typer un prompt, générer un CRUD, setup les APIs, déployer. Claude Code, Cursor, Codex, peu importe. Builder une app c'est facile.

Les 4 mois, c'est autre chose.

C'est mapper le domaine métier de ses clients de façon structurée:

  • Les services offerts par ses clients

  • Les variantes de prix selon le plan, la localisation, le tier

  • Les professionnels qui peuvent livrer quel service

  • Les horaires, les contraintes, les exceptions

  • Les rĂšgles qui peuvent pas ĂȘtre dĂ©duites logiquement (exceptions historiques, deals particuliers avec certains clients, politiques maison qui vivent dans la tĂȘte du patron)

Cette couche-là se gagne seulement en passant du temps avec le client, dans son métier, à débusquer les edge cases qui n'apparaissent nulle part dans la documentation officielle.

Pour un fondateur voice AI, c'est un moat potentiellement intĂ©ressant—qui ressemble d'ailleurs au moat classique du Vertical SaaS. Le code qui entoure l'agent, des dizaines d'autres peuvent le rebuild en un week-end. La carte dĂ©taillĂ©e du domaine opĂ©rationnel, c'est des mois de terrain qui se copient mal.

Les fondateurs qui scalent l'ont compris. Ils trackent leurs apprentissages. Ils buildent leur playbook domaine comme un asset Ă  part entiĂšre, distinct de leur codebase.

Le brouillard sur la ligne

Un truc m'a frappé en compilant mes notes: les huit fondateurs à qui j'ai parlé construisent des business fondamentalement différentes les unes des autres.

T'as un fondateur non-technique qui vise une verticale spécifique, qui déverrouille tout par la connaissance métier. T'as des jeunes fondateurs avec le couteau entre les dents, qui attaquent un angle d'abord horizontal pis ship vite. T'as un fondateur hyper focused, avec une équipe super technique, qui maximise la souveraineté des données et de la stack.

Fun fact: je m’attendais Ă  ce que la souverainetĂ© des donnĂ©es et de l’infra soit un enjeu plus top-of-mind dans mes discussions, mais pas tant. DĂ©pend de plein trucs, et sujet pour un autre Ă©dito, hehe.

Pis y'a un autre axe qui traverse ça: t'en as qui n'hésitent pas à payer pour des applications ou des plateformes turnkey pour bouger plus vite, t'en as d'autres qui leverage l'open source pis l'agentic coding pour tout développer à l'interne.

Mettons que j'ai utilisé le terme "space" trÚs largement pour rassembler tout ce beau monde-là en voice AI. Y'ont des thÚses radicalement différentes. Stacks différents. Stratégies différentes.

C'est le signe d'un space qui est encore tît—personne s'entend sur c'est quoi le bon playbook, parce qu'il y en a pas encore un.

Le titre de l'édito, il vient de cette sensation qui m'est revenue à chaque appel: ce space-là est dans un pas pire fog of war. Meh, pas juste ce space, I guess.

T'as des applications construites par-dessus des modĂšles, qui cherchent Ă  se verticaliser ou s'horizontaliser le plus vite possible avant que quelqu'un d'autre claim leur niche ou leur positionnement universel. T'as des gros labs (OpenAI, Google, ElevenLabs) qui ship leurs propres applications pis qui mangent des parts de marchĂ© que les apps pensaient Ă  eux. Pis t'as des outils voice ops in-between (comme celui que mon ami m'a pitchĂ©, ou Coval, Cekura, Roark, Hamming) qui occupent un crĂ©neau rĂ©el mais potentiellement fragile—vulnĂ©rables d'un cĂŽtĂ© si les plateformes model montent dans le ops, vulnĂ©rables de l'autre si les apps descendent dans le ops elles-mĂȘmes.

Un timing intéressant. Un squeeze réel aussi?

Si t’as un take pour m’éduquer sur la dĂ©fensibilitĂ© et longĂ©vitĂ© des startups en voice ops, Ă©cris-moi stp.

Est-ce que je vais prendre la tĂȘte de cette startup? Je le sais pas encore au moment oĂč tu lis ça. Probablement pas. Mais bĂątir dans le voice AI en 2026, ça demande un certain appĂ©tit pour le chaos pis l'incertitude—le brouillard sur la ligne fait partie de la job.

Remerciements

Merci Ă  tous ceux qui m'ont Ă©crit ou DM pour m'offrir de jaser—j'ai pas eu le temps de prendre tous les calls ni de rĂ©pondre Ă  tout le monde. Je vais essayer de faire une autre passe plus tard cette annĂ©e.

Pour les huit qui ont pris le temps de me parler directement, gros merci. Toutes les opinions dans ce texte sont les miennes—plusieurs insights qui se recoupent viennent d'eux:

Si tu bĂątis dans le voice AI au QuĂ©bec pis que tu veux jaser—reply Ă  cet Ă©dito.

—

Cheers,

Frank đŸ’œ

Gros jalon pour Unicorne 🩄

Belle rĂ©ussite pour nos amis chez Unicorne đŸŠ„

Leur produit Stable vient de franchir les 30M$ de dépenses AWS optimisées.

L'optimisation cloud, c'est pas juste couper du gras. C'est libérer du budget pour ce qui fait vraiment avancer ta business.

Stable donne aux équipes le contrÎle et la visibilité qu'elles méritent : alertes plus tÎt, meilleure lecture des variations de dépenses, recommandations sur lesquelles tu peux réellement te fier.

FĂ©licitations Ă  toute l'Ă©quipe 💜

D'ailleurs, on avait enregistré une capsule sur Stable l'an passé si tu veux en savoir plus :

95% du web n’a pas d’API 🌐

"95% du web n'a pas d'API." 🌐

Zapier, Make, les gros joueurs d'automation → ils connectent les apps qui ont des API.

Mais le reste? Cliniques médicales, assureurs, sites legacy... Pour eux, construire une API pour les devs, ce n'est pas la priorité.

La mission de Deck: donner accĂšs au 95% du web qui n'a jamais Ă©tĂ© pensĂ© pour ĂȘtre accessible.

Quand ton board vote contre toi sans le dire

Guillaume Falardeau de Leviat Legal a décortiqué un cas qui devrait faire suer pas mal de founders.

Le scĂ©nario : une compagnie se vend. Les VCs rĂ©cupĂšrent leur mise. Les fondateurs et employĂ©s obtiennent zĂ©ro. Et 6 des 7 membres du board avaient des conflits d'intĂ©rĂȘts.

CEO avec un bonus négocié en secret avec l'acheteur. CFO idem. Administrateur "indépendant" qui investissait dans les fonds du VC. Beau comité.

C'est quoi le dual fiduciary, pourquoi ta waterfall de liquidation peut te coĂ»ter des millions, et comment te protĂ©ger avant que ce soit urgent — Guillaume l'explique clairement.

Genre de post que tu lis maintenant, pas juste quand t'en as besoin. 👇

Rejoins les SaaSpals 👇

Merci tellement Ă  tous nos SaaSpals. Votre support nous motive BIG TIME.

Partenaires certifiĂ©s SaaSpasse 💜

HUGE merci à tous nos partenaires certifiés pour cette année :

Podcast

Voici le dernier épisode du pod :

Pas encore abonnĂ© au pod? Let’s go :

Okay bobye!

Reply

or to participate.