🔝 Retour au Sommaire

Chapitre 13 : Indexation et Optimisation

Introduction au Chapitre

L'indexation et l'optimisation sont au cœur de la performance d'une base de données PostgreSQL. Un index bien conçu peut transformer une requête qui prend plusieurs minutes en une requête quasi-instantanée. À l'inverse, de mauvais choix d'indexation peuvent ralentir considérablement les écritures et gaspiller de l'espace disque.

Ce chapitre est l'un des plus importants de cette formation car il vous donne les outils pratiques pour rendre vos applications PostgreSQL rapides et scalables.

Pourquoi l'Indexation et l'Optimisation Sont Cruciales

Le Problème de la Croissance

Imaginez une petite application qui démarre avec quelques centaines d'utilisateurs et quelques milliers de lignes dans la base de données. Les requêtes sont instantanées, tout fonctionne parfaitement.

6 mois plus tard :

100,000 utilisateurs
50 millions de lignes dans la table des commandes
Les requêtes qui prenaient 10 ms prennent maintenant 30 secondes
L'application devient inutilisable

Que s'est-il passé ?

Sans index appropriés, PostgreSQL doit lire toutes les lignes pour trouver celles qui correspondent à vos critères. Cette opération, appelée Sequential Scan (scan séquentiel), est rapide sur de petites tables mais devient catastrophique sur de grandes tables.

Analogie : Chercher un mot dans un dictionnaire

Sans index : Vous lisez le dictionnaire page par page, depuis la première jusqu'à trouver le mot. Sur un dictionnaire de 1000 pages, vous pourriez lire les 1000 pages !
Avec index : Vous utilisez l'index alphabétique, allez directement à la section "P" pour "PostgreSQL", et trouvez le mot en quelques secondes.

C'est exactement ce que fait un index dans PostgreSQL : il permet d'accéder directement aux données pertinentes sans tout parcourir.

L'Impact en Chiffres

Voici un exemple concret de l'impact d'un index sur une table de 10 millions de lignes :

Opération	Sans Index	Avec Index	Gain
Recherche d'un client par ID	8 secondes	0.005 secondes	1600× plus rapide
Recherche par email	12 secondes	0.008 secondes	1500× plus rapide
Recherche par date	15 secondes	0.015 secondes	1000× plus rapide
Jointure de 2 tables	45 secondes	0.2 secondes	225× plus rapide

Ces gains ne sont pas théoriques : ce sont des résultats typiques observés dans des applications réelles.

Objectifs de Ce Chapitre

À la fin de ce chapitre, vous serez capable de :

1. Comprendre Comment PostgreSQL Accède aux Données

Vous apprendrez :

Les différentes stratégies de scan (Sequential, Index, Bitmap, Index-Only)
Comment PostgreSQL choisit quelle stratégie utiliser
Quand chaque stratégie est appropriée

2. Maîtriser les Types d'Index

Vous découvrirez :

B-Tree : L'index par défaut et le plus polyvalent
GIN : Pour le texte intégral, JSON, et les arrays
GiST : Pour les données géométriques et spatiales
BRIN : Pour les très grandes tables séquentielles
Hash : Pour les égalités strictes
Comment choisir le bon type d'index pour votre cas d'usage

3. Créer des Index Efficaces

Vous maîtriserez :

Les index simples et composites (multi-colonnes)
Les index partiels (sur un sous-ensemble de données)
Les index sur expressions (fonctions)
Les covering indexes (INCLUDE) pour les Index-Only Scans

4. Comprendre le Planificateur de Requêtes

Vous comprendrez :

Comment PostgreSQL planifie l'exécution de vos requêtes
Le rôle des statistiques (pg_stats)
Comment le planificateur évalue les coûts
Pourquoi certaines requêtes n'utilisent pas les index

5. Analyser et Optimiser les Requêtes

Vous apprendrez à :

Lire et interpréter EXPLAIN et EXPLAIN ANALYZE
Identifier les goulots d'étranglement dans vos requêtes
Utiliser BUFFERS pour analyser les I/O
Comparer les plans d'exécution

6. Maintenir vos Index

Vous saurez :

Détecter le bloat (gonflement) des index
Utiliser REINDEX pour reconstruire les index
Comprendre VACUUM vs VACUUM FULL
Automatiser la maintenance avec autovacuum

7. Exploiter les Nouveautés PostgreSQL 18

Vous découvrirez :

Skip Scan optimization : Utiliser des index multi-colonnes sans la première colonne
Améliorations d'EXPLAIN : Buffers automatiques avec ANALYZE
Optimisations du planificateur : Auto-élimination des self-joins, réorganisation DISTINCT
Prepared Statements : Mise en cache des plans pour performances maximales

Structure du Chapitre

Ce chapitre est organisé de manière progressive, du concept le plus simple au plus avancé :

Partie 1 : Fondamentaux (Sections 13.1 à 13.5)

13.1. Stratégies de scan

Sequential Scan, Index Scan, Bitmap Scan, Index-Only Scan
Quand PostgreSQL utilise chaque stratégie
Comparaisons et cas d'usage

13.2. L'index B-Tree

Structure et algorithme de l'arbre équilibré
Le type d'index par défaut (90% des cas)
Opérations supportées et limitations

13.3. Skip Scan optimization (Nouveauté PG 18)

Utiliser des index composites sans la première colonne
Cas d'usage et économies d'index

13.4. Index spécialisés

GIN : Full-text search, JSON, Arrays
GiST : Géométrie, données spatiales
BRIN : Grandes tables séquentielles
Hash : Égalités strictes
SP-GiST : Structures non-équilibrées

13.5. Stratégies d'indexation avancées

Index partiels (WHERE clause)
Index sur expressions
Index multi-colonnes et ordre optimal
Covering indexes (INCLUDE)

Partie 2 : Planification et Analyse (Sections 13.6 à 13.8)

13.6. Le planificateur de requêtes et les statistiques

Comment PostgreSQL choisit le plan d'exécution
Le rôle de pg_stats
ANALYZE et mise à jour des statistiques
Modèle de coût

13.7. Lecture et analyse d'EXPLAIN

EXPLAIN vs EXPLAIN ANALYZE
Interpréter les coûts et les estimations
BUFFERS : Analyser les I/O
VERBOSE : Détails complets
FORMAT JSON : Pour l'automatisation

13.8. Améliorations d'EXPLAIN (Nouveauté PG 18)

Buffers automatiques avec ANALYZE
Buffers de planification
Simplification du workflow d'analyse

Partie 3 : Optimisation Avancée (Sections 13.9 à 13.11)

13.9. Optimisations du planificateur (Nouveauté PG 18)

Auto-élimination des self-joins
Réorganisation automatique DISTINCT
Optimisation IN (VALUES ...) vers ANY
OR-clauses transformées en ANY

13.10. Prepared Statements et performance

Économie de planification
Generic vs Custom plans
Sécurité contre SQL injection
Utilisation dans les drivers

13.11. Maintenance des index

Bloat : Détection et impact
REINDEX et REINDEX CONCURRENTLY
VACUUM vs VACUUM FULL
Autovacuum et configuration
Nouveautés PostgreSQL 18 (autovacuum amélioré)

Prérequis

Pour tirer le meilleur parti de ce chapitre, vous devriez avoir :

✅ Connaissances SQL de base :

SELECT, WHERE, JOIN
CREATE TABLE, INSERT, UPDATE, DELETE
Types de données fondamentaux

✅ Compréhension du modèle relationnel :

Clés primaires (PRIMARY KEY)
Clés étrangères (FOREIGN KEY)
Normalisation de base

✅ Notions de bases de données :

Tables et colonnes
Transactions (BEGIN, COMMIT, ROLLBACK)
Contraintes d'intégrité

Si vous n'êtes pas familier avec ces concepts, nous vous recommandons de commencer par les Parties 1 et 2 de cette formation (Chapitres 1 à 12).

Approche Pédagogique

Ce chapitre adopte une approche progressive :

1. Conceptuel d'abord

Chaque section commence par expliquer pourquoi avant le comment :

Analogies du monde réel
Schémas et visualisations
Exemples concrets

2. Théorie et Pratique Équilibrées

Théorie : Comprendre les mécanismes internes de PostgreSQL
Pratique : Exemples SQL concrets et analyses de plans

3. Cas d'Usage Réels

Chaque concept est illustré avec des scénarios réels :

Applications e-commerce
APIs RESTful
Systèmes de logs
Applications IoT
Microservices

4. Bonnes Pratiques et Pièges

À chaque étape, vous apprendrez :

✅ Ce qu'il faut faire
❌ Ce qu'il ne faut pas faire
⚠️ Les pièges courants et comment les éviter

Conventions Utilisées dans Ce Chapitre

Symboles

✅ : Bonne pratique, approche recommandée
❌ : Mauvaise pratique, à éviter
⚠️ : Attention, piège courant
🔑 : Point clé à retenir
🚀 : Gain de performance significatif

Code SQL

Les exemples de code sont présentés de manière claire :

-- Commentaire explicatif
CREATE INDEX idx_clients_email ON clients(email);

-- Résultat attendu
-- CREATE INDEX

Plans d'Exécution

Les plans EXPLAIN sont formatés pour faciliter la lecture :

Seq Scan on clients  (cost=0.00..2123.00 rows=35000 width=50)
                     (actual time=0.045..23.456 rows=34987 loops=1)
  Filter: ((ville)::text = 'Paris'::text)
  Rows Removed by Filter: 65013
  Buffers: shared hit=1234 read=150
Planning Time: 0.234 ms  
Execution Time: 25.891 ms

Chaque élément est ensuite expliqué en détail.

Tableaux Comparatifs

Les concepts sont souvent résumés dans des tableaux :

Critère	Option A	Option B	Recommandation
Performance	Rapide	Lent	Option A
Espace disque	Petit	Grand	Option A
Maintenance	Simple	Complexe	Option A

Comment Utiliser Ce Chapitre

Pour les Débutants

Si vous découvrez l'indexation :

Lisez dans l'ordre : Les sections sont progressives
Prenez votre temps : Chaque concept s'appuie sur les précédents
Testez les exemples : Reproduisez les exemples SQL (si possible)
Revenez aux analogies : Elles aident à comprendre les concepts abstraits

Pour les Intermédiaires

Si vous avez déjà créé des index :

Concentrez-vous sur les sections avancées : 13.5 à 13.11
Étudiez les nouveautés PostgreSQL 18 : 13.3, 13.8, 13.9
Pratiquez EXPLAIN : Section 13.7 est essentielle
Appliquez à vos cas d'usage : Adaptez les exemples à vos tables

Pour les Avancés

Si vous optimisez déjà vos requêtes :

Nouveautés PostgreSQL 18 : Sections 13.3, 13.8, 13.9, 13.11
Cas d'usage avancés : Index partiels, covering indexes
Maintenance et monitoring : Section 13.11
Prepared Statements : Section 13.10

Outils Nécessaires

Pour suivre les exemples de ce chapitre, vous aurez besoin de :

Obligatoire

PostgreSQL 18 (ou version récente)
psql (client en ligne de commande)
Une base de données de test

Recommandé

pgAdmin ou DBeaver (interface graphique)
Extension pgstattuple (pour analyser le bloat)

CREATE EXTENSION pgstattuple;

Optionnel (pour aller plus loin)

PEV (Postgres EXPLAIN Visualizer) : https://explain.dalibo.com/
pg_stat_statements : Monitoring des requêtes

CREATE EXTENSION pg_stat_statements;

auto_explain : Logging automatique des plans

Philosophie de l'Optimisation

Avant de plonger dans les détails techniques, gardez à l'esprit ces principes fondamentaux :

1. Mesurez d'abord, Optimisez ensuite

"Premature optimization is the root of all evil" — Donald Knuth

Ne créez pas d'index "au cas où". Mesurez d'abord les performances, identifiez les goulots, puis optimisez de manière ciblée.

2. Les Index ont un Coût

Chaque index :

✅ Accélère les lectures (SELECT)
❌ Ralentit les écritures (INSERT, UPDATE, DELETE)
❌ Occupe de l'espace disque
❌ Nécessite de la maintenance

Règle d'or : Créez des index seulement si le gain en lecture compense le coût en écriture.

3. Le Contexte est Roi

Un index optimal pour une application e-commerce n'est pas le même que pour un système de logs. Vos choix d'indexation dépendent de :

Votre charge de travail (OLTP vs OLAP)
Vos patterns de requêtes
Votre volume de données
Votre fréquence d'écriture

4. L'Optimisation est Itérative

L'optimisation n'est jamais "terminée" :

Déployer l'application
Monitorer les performances
Identifier les requêtes lentes
Optimiser (index, requêtes, schéma)
Répéter

Ressources Complémentaires

Ce chapitre couvre l'essentiel de l'indexation et de l'optimisation, mais PostgreSQL est vaste. Pour approfondir :

Documentation Officielle

PostgreSQL Documentation : https://www.postgresql.org/docs/18/
Section Indexes : https://www.postgresql.org/docs/18/indexes.html
Performance Tips : https://www.postgresql.org/docs/18/performance-tips.html

Livres Recommandés

"The Art of PostgreSQL" par Dimitri Fontaine
"PostgreSQL: Up and Running" par Regina Obe et Leo Hsu
"Mastering PostgreSQL" par Hans-Jürgen Schönig

Communauté

Mailing list : pgsql-performance@postgresql.org
Reddit : r/PostgreSQL
Stack Overflow : Tag [postgresql]
Discord PostgreSQL

Blogs et Articles

2ndQuadrant Blog : https://www.2ndquadrant.com/en/blog/
Percona Blog : https://www.percona.com/blog/
Citus Data Blog : https://www.citusdata.com/blog/
Cybertec Blog : https://www.cybertec-postgresql.com/en/blog/

Avertissement Important

Les exemples de ce chapitre sont à des fins pédagogiques. Avant d'appliquer ces techniques en production :

Testez dans un environnement de développement d'abord
Analysez l'impact sur votre charge de travail spécifique
Créez des sauvegardes avant les opérations de maintenance
Planifiez des fenêtres de maintenance pour les opérations intrusives
Documentez vos décisions d'optimisation

Attention particulière : Les opérations comme REINDEX, VACUUM FULL peuvent bloquer votre base pendant plusieurs heures sur de grandes tables. Lisez attentivement la section 13.11 avant de les exécuter en production.

Vue d'Ensemble des Gains Attendus

À titre indicatif, voici les gains de performance typiques que vous pouvez attendre en appliquant les techniques de ce chapitre :

Gains Immédiats (Jours 1-7)

Actions : Créer des index B-Tree de base sur colonnes WHERE et JOIN

Gains attendus :

Requêtes SELECT : 10-1000× plus rapides
Temps de réponse API : < 100 ms au lieu de plusieurs secondes
Charge CPU : -50 à -80%

Gains à Court Terme (Semaines 2-4)

Actions : Optimiser les index existants (composites, partiels, INCLUDE)

Gains attendus :

Requêtes complexes : 5-50× plus rapides
Espace disque : -20 à -40% (index optimisés)
Cache Hit Ratio : > 95%

Gains à Long Terme (Mois 2-6)

Actions : Maintenance régulière, monitoring, ajustements

Gains attendus :

Stabilité des performances : Pas de dégradation progressive
Coûts d'infrastructure : -30 à -50% (moins de serveurs nécessaires)
Satisfaction utilisateur : Amélioration notable de l'expérience

Prêt à Commencer ?

Vous avez maintenant une vision d'ensemble de ce qui vous attend dans ce chapitre. L'indexation et l'optimisation peuvent sembler intimidantes au premier abord, mais avec une approche méthodique et progressive, vous maîtriserez rapidement ces concepts essentiels.

Rappelez-vous :

Chaque expert a été débutant
La pratique rend parfait
PostgreSQL est très bien documenté
La communauté est là pour vous aider

Commençons maintenant par les fondamentaux avec la section 13.1 sur les stratégies de scan !

Prochaine section : 13.1. Stratégies de scan : Séquentiel vs Index vs Bitmap vs Index-Only

⏭️ Stratégies de scan : Séquentiel vs Index vs Bitmap vs Index-Only

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Chapitre 13 : Indexation et Optimisation

Introduction au Chapitre

Pourquoi l'Indexation et l'Optimisation Sont Cruciales

Le Problème de la Croissance

L'Impact en Chiffres

Objectifs de Ce Chapitre

1. Comprendre Comment PostgreSQL Accède aux Données

2. Maîtriser les Types d'Index

3. Créer des Index Efficaces

4. Comprendre le Planificateur de Requêtes

5. Analyser et Optimiser les Requêtes

6. Maintenir vos Index

7. Exploiter les Nouveautés PostgreSQL 18

Structure du Chapitre

Partie 1 : Fondamentaux (Sections 13.1 à 13.5)

Partie 2 : Planification et Analyse (Sections 13.6 à 13.8)

Partie 3 : Optimisation Avancée (Sections 13.9 à 13.11)

Prérequis

Approche Pédagogique

1. Conceptuel d'abord

2. Théorie et Pratique Équilibrées

3. Cas d'Usage Réels

4. Bonnes Pratiques et Pièges

Conventions Utilisées dans Ce Chapitre

Symboles

Code SQL

Plans d'Exécution

Tableaux Comparatifs

Comment Utiliser Ce Chapitre

Pour les Débutants

Pour les Intermédiaires

Pour les Avancés

Outils Nécessaires

Obligatoire

Recommandé

Optionnel (pour aller plus loin)

Philosophie de l'Optimisation

1. Mesurez d'abord, Optimisez ensuite

2. Les Index ont un Coût

3. Le Contexte est Roi

4. L'Optimisation est Itérative

Ressources Complémentaires

Documentation Officielle

Livres Recommandés

Communauté

Blogs et Articles

Avertissement Important

Vue d'Ensemble des Gains Attendus

Gains Immédiats (Jours 1-7)

Gains à Court Terme (Semaines 2-4)

Gains à Long Terme (Mois 2-6)

Prêt à Commencer ?