Un lama et deux bozos

Ollama + pinokio = LLM gratis sur ton laptop 🦙

Francois Lanthier Nadeau
February 07, 2025

C’est la première fois de ma vie qu’une démo fonctionne du premier coup!

On venait de faire rouler Llama 3.2. Rendu à tester DeepSeek-R1, quand mi-prompt…

___full laptop crash___

Coincidence? JE NE CROIS PAS, CCP!

Bref, Douville d’Apollo13 m’a appris à rouler des modèles d’AI aux milliards de paramètres direct sur ma machine. Dans un UI très utilisateur-amical. Pour 0 piastre.

Bonus : ta data reste sur ton ordi. Même pas besoin d’être connecté sur le Ternet.

Tsé, les abonnements à ChatGPT, Claude, Perplexity, etc., s’accumulent. Et ils t’imposent souvent des limites d’utilisation. Ce qui aggrave immédiatement la situation déjà super éprouvante d’être un tech worker en Occident sur son laptop (avec latté).

Peut-être es-tu dans la position du founder avec exit récent qui m’a dit :

Le truc pour les limites d'utilisation, c'est trois comptes Claude pro payants.

^heu SCUSE-moi, Mister Baller

Mais si t’es comme moi, tu comptes tes cents sans dépenser sur des folies comme un abonnement annuel à Midjourney pour faire trois images par année (je mens, je l’ai fait).

Sans coder ni dépenser un dollar, tu peux rouler un “ChatGPT” sur ton laptop. Voici comment, vidéo en bonus 👇

Pourquoi rouler un LLM sur ta machine direct?

Il fait f**king frette ces temps-ci, donc je commencerai par citer Vincent Bernard, directeur R&D chez Coveo :

Blague à part, ça peut te manger de la RAM pas mal ça de l’air. Donc si t’es encore en train d’user ton vieux Macbook à l’os, well… lis une des autres éditions de l’infolettre—sont toutes bonnes.

OU procure-toi un nouveau Macbook via notre partenariat SaaSpasse x Apple*.
*dis-moi que t’as pas cliqué pour vrai?

Y’a quand même de cool avantages IMO :

Confidentialité VIP : ta data reste chez vous, zéro leak possible
sauf si t’es du genre à pas verrouiller ton écran
Mode avion-friendly : pas besoin d'Internet pour que ça roule
Coût nul : une petite victoire dans l’éternelle guerre contre les abonnements $
Rapidité : pas de latence réseau ni de files d'attente
Full contrôle : possibilité de customiser selon tes besoins

C’est quoi Ollama?

Ollama c'est comme ton gestionnaire de modèles AI local. Un peu comme Spotify pour des LLMs (Large Language Models). Tu télécharges l'app, puis t'as accès à un catalogue de modèles open source prêts à rouler sur ta machine.

Quels modèles sont dispo?

Une sélection pas piquée des vers :

Llama 3.2 (notre fidèle compagnon de test)
DeepSeek-R1 (spécialisé en raisonnement—quand il crash pas ton laptop)
Mistral
Phi-4
30+ autres modèles

Pro tip : check le nombre de paramètres avant d'installer. Mettons avec 8GB de RAM, tu peux en théorie rouler des modèles jusqu'à ~7 milliards de paramètres. Plus le nombre de paramètres est élevé, plus l'inférence sera lente et la consommation de mémoire importante.

Comment faire ça?

Si j’ai pu le faire en trente minutes, c’est sûr que tu peux aussi. L’heure de gloire des n00bs est arrivée, je crois en toi.

Full vidéo coming soon. Je l’ai échappé côté délégation. Mais un bon leader prend la responsabilité, you know. Vu que je suis 80% un bon leader, vous pouvez donc blâmer Meto à 20%.

Étape 1 : Installe Ollama

Rends-toi sur Ollama et télécharge la version pour Mac (si t’es sur Mac, of course).
Ouvre le fichier téléchargé et déplace Ollama dans le dossier Applications.
Lance Ollama. L’icône devrait apparaître en haut à droite de ton écran.
Suis les instructions pour installer la ligne de commande via ton Terminal si demandé.

si t’as jamais ouvert ton Terminal sur Mac, ça ressemble à ça!

Étape 2 : Installe pinokio

Va sur pinokio et télécharge la version pour Mac.
Ouvre le fichier .dmg et déplace pinokio dans le dossier Applications.
Ouvre pinokio. Si tu reçois un message de sécurité, va dans Préférences Système > Sécurité et Confidentialité et autorise l’application.
Dans pinokio, utilise l’outil Sentinel pour retirer pinokio de la “quarantaine” macOS si nécessaire.

Étape 3 : Installe Open WebUI via pinokio

Dans pinokio, cherche Open WebUI dans le marketplace de scripts.
Clique sur Download, puis sur Install. pinokio gérera automatiquement l’installation des dépendances.
Une fois l'installation terminée, ouvre Open WebUI via pinokio. Ça lancera une interface similaire à ChatGPT dans ton navigateur, accessible via un lien localhost.

Étape 4 : Télécharge et utilise un LLM open source

Ouvre Ollama et télécharge un modèle compatible avec ta RAM.
Exemple de commande dans le terminal pour télécharger un modèle :

ollama run llama3.3

Une fois le modèle téléchargé, il apparaîtra dans Open WebUI. Tu pourras choisir le modèle dans l’interface et commencer à interagir avec.

Étape 5 : Change de modèle dans Open WebUI

Pour ajouter un autre modèle, retourne sur le site d’Ollama et trouve un modèle qui t'intéresse (comme DeepSeek-R1 pour le raisonnement).
Utilise la commande suivante pour télécharger un nouveau modèle :

ollama run deepseek-r1

Le nouveau modèle sera disponible dans Open WebUI, où tu pourras alterner entre différents modèles dans une même conversation.

Conseils et idées :

Les modèles plus lourds (plus de 7B paramètres) peuvent être lents ou causer des crashs si tu n'as pas assez de RAM.
Open WebUI permet certaines fonctions comme la recherche web, mais tu devras configurer des clés API pour des services comme Google ou DuckDuckGo.
Teste différents modèles selon tes besoins (raisonnement, code, créativité).
Explore l'app Apollo AI sur iOS pour une expérience similaire mobile.

Félicitations ! Tu peux maintenant utiliser des LLM open source localement sur ton ordinateur sans dépendre de services cloud payants qui espionnent tes recettes de cuisine.

Ta machine roule dans le tapis? Good news! Jumelle ça à un minimum de coton ouatés et bas de laine et tu peux maintenant réduire ton bill d’Hydro de 20%.

Thank me later 🔥

—

Quelque chose à ajouter? Good. Laisse un commentaire ou réponds à ce courriel direct.

Cheers,

Frank 💜

Capsule SaaSpasse x Apollo13

2 🥚 & une poignée de main

Comment bâtir un SaaS sans exploser ta marge de crédit 🧨

Engager une agence ou des devs senior? Coûteux. Trouver un cofondateur technique? Chasse au trésor. Apollo13, un studio no-code / low-code, offre une troisième option : builder un MVP vite fait et bien fait, sans te ruiner.

Dans cette capsule, je jase de plusieurs points avec Olivier Rousseau (VP chez Apollo13) :
• Comment ils aident les SaaS à lancer leur MVP plus vite, pour moins cher
• Les erreurs fréquentes des premiers produits
• Tester un marché sans perdre des mois (et des dizaines de milliers de dollars)
• Jusqu’où peut aller le no-code avant d’atteindre ses limites (spoiler : plus loin que tu penses)

La job du mois : SaaSpasse chez Missive

Philippe-Antoine Lehoux et son équipe cherchent un.e dev front-end pour pousser leur produit encore plus loin.

C’est une opportunité en or de rejoindre une petite équipe qui joue dans la cour des grands.

T'es à l’aise avec React, TypeScript, Tailwind, t'obsèdes avec l'optimisation du code et t'as pas peur d'en faire plus avec moins? Le poste est pour toi.

💰 : 90-150K
🏠 : Remote-friendly

Regarde la capsule sur le poste et la compagnie avec le CEO juste ici.

Si t’es déjà convaincu.e 👇

Rejoins les SaaSpals 👇

Merci à tous nos SaaSpals. Votre support nous motive BIG TIME.

Partenaires certifiés SaaSpasse 💜

HUGE merci à tous nos partenaires certifiés pour cette année :

Le Chiffre 🧾
Leviat 👨‍⚖️
Baseline 🤖
Unicorne 🌩️

Sans oublier nos partenaires produits :

Apollo13 💻
Vasco 🧭
Missive 💌

Check ‘em all out — on est déjà clients, et on leur envoie régulièrement des clients (maintenant) satisfaits.

Podcast

Voici le dernier épisode du pod :

→ Ep.122 - Patrick Monnot : De Sith à Jedi, de SF à MTL (3M USD seed pour Pod) w/ Patrick Monnot

Pas encore abonné au pod? Let’s go :

Okay bobye!

Reply

or to participate.