IA locale avec Ollama : installation, vérification matérielle et choix de modèles

IA locale avec Ollama : installation, vérification matérielle et choix de modèles

Faire tourner des modèles d’IA en local devient beaucoup plus accessible qu’il y a quelques années. Pour beaucoup d’utilisateurs, Ollama est aujourd’hui l’une des portes d’entrée les plus simples pour exécuter des modèles sur son propre ordinateur, sans dépendre en permanence d’un service cloud.

L’intérêt est clair : plus de contrôle sur les données, une meilleure maîtrise des coûts récurrents, moins de dépendance à un fournisseur externe et la possibilité d’expérimenter rapidement. En contrepartie, tout dépend davantage des capacités matérielles de la machine : mémoire, GPU, espace disque et taille des modèles.

Qu’est-ce qu’Ollama?

Ollama est un environnement qui permet de télécharger, exécuter et exposer localement des modèles d’IA. Son interface est simple, mais l’outil couvre plusieurs usages :

  1. discussion texte en local;
  2. usage via API locale sur la machine;
  3. intégration avec des outils de développement;
  4. exécution de modèles multimodaux selon les capacités du modèle choisi;
  5. gestion locale d’une bibliothèque de modèles.

La documentation officielle le positionne comme un moyen simple de démarrer avec des modèles tels que Gemma, Qwen et d’autres familles populaires, sur macOS, Windows et Linux.

Installation : le plus simple d’abord

Ollama propose des chemins d’installation officiels pour macOS, Windows et Linux.

Linux

La documentation Linux propose une installation via le script officiel disponible sur le site d’Ollama. Après installation, il faut lancer le service local et confirmer que l’outil en ligne de commande répond correctement.

Windows

Sous Windows, le plus simple est d’utiliser l’installateur officiel. La documentation précise qu’Ollama fonctionne comme application native Windows et qu’il peut ensuite être utilisé depuis les outils de ligne de commande du système.

macOS

Sur macOS, l’application Ollama peut être installée puis utilisée directement avec la CLI fournie par l’application.

Vérifier les requis matériels avant de se lancer

Le point le plus important n’est pas seulement d’installer Ollama, mais de savoir ce que la machine peut réellement faire tourner.

1. Vérifier le système et la mémoire

Sous Linux :

Il faut identifier le système, la mémoire disponible et les caractéristiques principales du processeur.

Sous Windows PowerShell :

Il faut vérifier la mémoire totale de la machine, le matériel graphique présent et les informations système de base.

Sous macOS :

Il faut consulter le résumé matériel de la machine ainsi que les informations graphiques.

2. Vérifier le GPU

Pour NVIDIA :

Il faut confirmer que le GPU est bien détecté et que les pilotes sont correctement installés.

Pour AMD sous Linux, la documentation Ollama renvoie au support ROCm ou Vulkan selon les cas. Il faut donc vérifier que le GPU est bien pris en charge et que les pilotes sont à jour.

3. Vérifier ce qu’Ollama charge réellement

Une fois un modèle lancé, la vérification la plus utile consiste à regarder ce qu’Ollama a réellement chargé en mémoire et la part du calcul exécutée sur le GPU ou sur le CPU.

La documentation explique que cette commande permet de voir :

  1. le modèle chargé;
  2. sa taille;
  3. la part exécutée sur GPU ou CPU;
  4. le contexte alloué.

C’est une étape pratique essentielle, parce qu’un modèle “compatible” sur le papier peut en réalité être trop lourd pour une exécution fluide.

Comprendre rapidement la mémoire et le contexte

Ollama documente aussi des valeurs par défaut de contexte selon la VRAM disponible :

  1. moins de 24 GiB de VRAM : contexte 4k;
  2. entre 24 et 48 GiB : 32k;
  3. à partir de 48 GiB : 256k.

Cela ne signifie pas qu’il faut absolument viser les plus grands contextes. En pratique, augmenter fortement le contexte augmente aussi les besoins mémoire. Pour une machine modeste, mieux vaut souvent un modèle plus petit et plus stable.

Les commandes de base à connaître

Pour un démarrage simple :

Il suffit de lancer un modèle texte de taille raisonnable pour valider que l’installation fonctionne.

Pour télécharger un modèle :

On peut ensuite télécharger un modèle supplémentaire depuis la bibliothèque Ollama.

Pour lister les modèles installés localement :

Il est aussi utile de vérifier la liste des modèles déjà présents sur la machine.

Pour arrêter un modèle :

Enfin, il faut savoir arrêter proprement un modèle actif pour libérer les ressources.

Pour utiliser l’API locale :

Ollama expose aussi une API locale sur la machine, ce qui permet d’intégrer les modèles dans d’autres outils ou applications sans passer par un service cloud.

Quels modèles choisir?

Le bon choix dépend moins du “meilleur modèle absolu” que du type de tâche et du matériel disponible.

Pour le texte général

Quelques familles intéressantes dans la bibliothèque Ollama :

  1. gemma4
    Bon candidat pour raisonnement, workflows agents et usages multimodaux selon la variante.

  2. qwen3
    Famille récente et large, avec plusieurs tailles, utile pour le texte général, les outils et certains usages avancés.

  3. granite4.1
    Famille IBM orientée entreprise, utile pour texte, tool use et sorties structurées.

  4. mistral
    Bon compromis pour des usages conversationnels généralistes.

  5. phi4
    Modèle plus compact et souvent intéressant pour un poste de travail raisonnable.

Pour le code

  1. qwen2.5-coder
  2. qwen3-coder
  3. granite-code
  4. codellama

Ces familles sont plus adaptées à la génération, la lecture et la correction de code que des modèles généralistes.

Pour la vision et les images

Si l’objectif est d’analyser une image ou d’effectuer du raisonnement visuel, la bibliothèque Ollama expose plusieurs familles pertinentes :

  1. gemma4
  2. qwen3.5
  3. qwen3-vl
  4. llava
  5. minicpm-v

Il faut toutefois choisir une variante explicitement multimodale. Toutes les tailles ou sous-versions d’une même famille n’offrent pas forcément les mêmes capacités.

Pour l’audio

La bibliothèque Ollama montre désormais aussi certaines entrées avec capacités audio, par exemple :

  1. gemma4
  2. nemotron3

Ici, il faut rester prudent : la présence d’un tag audio dans la bibliothèque ne signifie pas que chaque usage audio local sera trivial sur n’importe quelle machine. Le support réel dépend du modèle, de sa variante et des capacités matérielles disponibles.

Pour les embeddings et la recherche sémantique

Si le but n’est pas de “discuter” avec un modèle, mais de vectoriser des textes pour la recherche ou le RAG, il vaut mieux utiliser une famille spécialisée :

  1. mxbai-embed-large
  2. granite-embedding
  3. all-minilm
  4. snowflake-arctic-embed2

Ces modèles sont mieux adaptés aux index sémantiques que les modèles de chat classiques.

Quelques recommandations simples selon le matériel

Machine modeste

Privilégier :

  1. des modèles compacts;
  2. du texte avant tout;
  3. des contextes limités;
  4. des usages ponctuels plutôt que multitâches.

Machine intermédiaire

On peut viser :

  1. des modèles texte plus confortables;
  2. un peu de vision;
  3. des usages de code;
  4. des embeddings locaux pour un petit RAG.

Machine puissante avec bon GPU

Il devient réaliste d’envisager :

  1. des modèles plus grands;
  2. des contextes plus élevés;
  3. des usages multimodaux plus ambitieux;
  4. plusieurs scénarios de test locaux.

Ce qu’il faut éviter au début

Pour bien démarrer, il vaut mieux éviter :

  1. de télécharger trop vite un très gros modèle sans vérifier la VRAM;
  2. de supposer que “plus grand” signifie toujours “meilleur pour votre usage”;
  3. de négliger l’espace disque, qui peut grimper vite;
  4. de croire qu’un modèle multimodal sera forcément fluide localement;
  5. de mélanger trop tôt chatbot, code, vision, audio et RAG sans méthode.

Conclusion

Ollama est une excellente porte d’entrée vers l’IA locale, à condition de partir du bon ordre de priorité : installation propre, vérification matérielle, choix raisonnable du premier modèle, puis montée progressive en complexité.

Pour un démarrage sérieux, le plus pragmatique consiste souvent à :

  1. installer Ollama;
  2. vérifier RAM, GPU et espace disque;
  3. tester un modèle texte de taille raisonnable;
  4. observer son comportement avec ollama ps;
  5. ensuite seulement explorer la vision, l’audio, le code ou les embeddings.

La promesse de l’IA locale n’est pas seulement la confidentialité. C’est aussi la maîtrise : comprendre ce qui tourne, sur quelle machine, avec quel coût et pour quel usage.

Sources