IA locale avec Ollama : installation, vérification matérielle et choix de modèles
Faire tourner des modèles d’IA en local devient beaucoup plus accessible qu’il y a quelques années. Pour beaucoup d’utilisateurs, Ollama est aujourd’hui l’une des portes d’entrée les plus simples pour exécuter des modèles sur son propre ordinateur, sans dépendre en permanence d’un service cloud.
L’intérêt est clair : plus de contrôle sur les données, une meilleure maîtrise des coûts récurrents, moins de dépendance à un fournisseur externe et la possibilité d’expérimenter rapidement. En contrepartie, tout dépend davantage des capacités matérielles de la machine : mémoire, GPU, espace disque et taille des modèles.
Qu’est-ce qu’Ollama?
Ollama est un environnement qui permet de télécharger, exécuter et exposer localement des modèles d’IA. Son interface est simple, mais l’outil couvre plusieurs usages :
- discussion texte en local;
- usage via API locale sur la machine;
- intégration avec des outils de développement;
- exécution de modèles multimodaux selon les capacités du modèle choisi;
- gestion locale d’une bibliothèque de modèles.
La documentation officielle le positionne comme un moyen simple de démarrer avec des modèles tels que Gemma, Qwen et d’autres familles populaires, sur macOS, Windows et Linux.
Installation : le plus simple d’abord
Ollama propose des chemins d’installation officiels pour macOS, Windows et Linux.
Linux
La documentation Linux propose une installation via le script officiel disponible sur le site d’Ollama. Après installation, il faut lancer le service local et confirmer que l’outil en ligne de commande répond correctement.
Windows
Sous Windows, le plus simple est d’utiliser l’installateur officiel. La documentation précise qu’Ollama fonctionne comme application native Windows et qu’il peut ensuite être utilisé depuis les outils de ligne de commande du système.
macOS
Sur macOS, l’application Ollama peut être installée puis utilisée directement avec la CLI fournie par l’application.
Vérifier les requis matériels avant de se lancer
Le point le plus important n’est pas seulement d’installer Ollama, mais de savoir ce que la machine peut réellement faire tourner.
1. Vérifier le système et la mémoire
Sous Linux :
Il faut identifier le système, la mémoire disponible et les caractéristiques principales du processeur.
Sous Windows PowerShell :
Il faut vérifier la mémoire totale de la machine, le matériel graphique présent et les informations système de base.
Sous macOS :
Il faut consulter le résumé matériel de la machine ainsi que les informations graphiques.
2. Vérifier le GPU
Pour NVIDIA :
Il faut confirmer que le GPU est bien détecté et que les pilotes sont correctement installés.
Pour AMD sous Linux, la documentation Ollama renvoie au support ROCm ou Vulkan selon les cas. Il faut donc vérifier que le GPU est bien pris en charge et que les pilotes sont à jour.
3. Vérifier ce qu’Ollama charge réellement
Une fois un modèle lancé, la vérification la plus utile consiste à regarder ce qu’Ollama a réellement chargé en mémoire et la part du calcul exécutée sur le GPU ou sur le CPU.
La documentation explique que cette commande permet de voir :
- le modèle chargé;
- sa taille;
- la part exécutée sur GPU ou CPU;
- le contexte alloué.
C’est une étape pratique essentielle, parce qu’un modèle “compatible” sur le papier peut en réalité être trop lourd pour une exécution fluide.
Comprendre rapidement la mémoire et le contexte
Ollama documente aussi des valeurs par défaut de contexte selon la VRAM disponible :
- moins de 24 GiB de VRAM : contexte 4k;
- entre 24 et 48 GiB : 32k;
- à partir de 48 GiB : 256k.
Cela ne signifie pas qu’il faut absolument viser les plus grands contextes. En pratique, augmenter fortement le contexte augmente aussi les besoins mémoire. Pour une machine modeste, mieux vaut souvent un modèle plus petit et plus stable.
Les commandes de base à connaître
Pour un démarrage simple :
Il suffit de lancer un modèle texte de taille raisonnable pour valider que l’installation fonctionne.
Pour télécharger un modèle :
On peut ensuite télécharger un modèle supplémentaire depuis la bibliothèque Ollama.
Pour lister les modèles installés localement :
Il est aussi utile de vérifier la liste des modèles déjà présents sur la machine.
Pour arrêter un modèle :
Enfin, il faut savoir arrêter proprement un modèle actif pour libérer les ressources.
Pour utiliser l’API locale :
Ollama expose aussi une API locale sur la machine, ce qui permet d’intégrer les modèles dans d’autres outils ou applications sans passer par un service cloud.
Quels modèles choisir?
Le bon choix dépend moins du “meilleur modèle absolu” que du type de tâche et du matériel disponible.
Pour le texte général
Quelques familles intéressantes dans la bibliothèque Ollama :
-
gemma4
Bon candidat pour raisonnement, workflows agents et usages multimodaux selon la variante. -
qwen3
Famille récente et large, avec plusieurs tailles, utile pour le texte général, les outils et certains usages avancés. -
granite4.1
Famille IBM orientée entreprise, utile pour texte, tool use et sorties structurées. -
mistral
Bon compromis pour des usages conversationnels généralistes. -
phi4
Modèle plus compact et souvent intéressant pour un poste de travail raisonnable.
Pour le code
qwen2.5-coderqwen3-codergranite-codecodellama
Ces familles sont plus adaptées à la génération, la lecture et la correction de code que des modèles généralistes.
Pour la vision et les images
Si l’objectif est d’analyser une image ou d’effectuer du raisonnement visuel, la bibliothèque Ollama expose plusieurs familles pertinentes :
gemma4qwen3.5qwen3-vlllavaminicpm-v
Il faut toutefois choisir une variante explicitement multimodale. Toutes les tailles ou sous-versions d’une même famille n’offrent pas forcément les mêmes capacités.
Pour l’audio
La bibliothèque Ollama montre désormais aussi certaines entrées avec capacités audio, par exemple :
gemma4nemotron3
Ici, il faut rester prudent : la présence d’un tag audio dans la bibliothèque ne signifie pas que chaque usage audio local sera trivial sur n’importe quelle machine. Le support réel dépend du modèle, de sa variante et des capacités matérielles disponibles.
Pour les embeddings et la recherche sémantique
Si le but n’est pas de “discuter” avec un modèle, mais de vectoriser des textes pour la recherche ou le RAG, il vaut mieux utiliser une famille spécialisée :
mxbai-embed-largegranite-embeddingall-minilmsnowflake-arctic-embed2
Ces modèles sont mieux adaptés aux index sémantiques que les modèles de chat classiques.
Quelques recommandations simples selon le matériel
Machine modeste
Privilégier :
- des modèles compacts;
- du texte avant tout;
- des contextes limités;
- des usages ponctuels plutôt que multitâches.
Machine intermédiaire
On peut viser :
- des modèles texte plus confortables;
- un peu de vision;
- des usages de code;
- des embeddings locaux pour un petit RAG.
Machine puissante avec bon GPU
Il devient réaliste d’envisager :
- des modèles plus grands;
- des contextes plus élevés;
- des usages multimodaux plus ambitieux;
- plusieurs scénarios de test locaux.
Ce qu’il faut éviter au début
Pour bien démarrer, il vaut mieux éviter :
- de télécharger trop vite un très gros modèle sans vérifier la VRAM;
- de supposer que “plus grand” signifie toujours “meilleur pour votre usage”;
- de négliger l’espace disque, qui peut grimper vite;
- de croire qu’un modèle multimodal sera forcément fluide localement;
- de mélanger trop tôt chatbot, code, vision, audio et RAG sans méthode.
Conclusion
Ollama est une excellente porte d’entrée vers l’IA locale, à condition de partir du bon ordre de priorité : installation propre, vérification matérielle, choix raisonnable du premier modèle, puis montée progressive en complexité.
Pour un démarrage sérieux, le plus pragmatique consiste souvent à :
- installer Ollama;
- vérifier RAM, GPU et espace disque;
- tester un modèle texte de taille raisonnable;
- observer son comportement avec
ollama ps; - ensuite seulement explorer la vision, l’audio, le code ou les embeddings.
La promesse de l’IA locale n’est pas seulement la confidentialité. C’est aussi la maîtrise : comprendre ce qui tourne, sur quelle machine, avec quel coût et pour quel usage.
Sources
- Documentation Ollama : https://docs.ollama.com/
- Quickstart Ollama : https://docs.ollama.com/quickstart
- Installation Linux : https://docs.ollama.com/linux
- Installation Windows : https://docs.ollama.com/windows
- Installation macOS : https://docs.ollama.com/macos
- Support matériel : https://docs.ollama.com/gpu
- Longueur de contexte : https://docs.ollama.com/context-length
- Référence CLI : https://docs.ollama.com/cli
- API locale : https://docs.ollama.com/api
- Bibliothèque de modèles Ollama : https://ollama.com/library

