Merge branch 'sess1' into copilot/sub-pr-89

sdpython · web-flow · commit 5c17e93acdaf · 2026-04-12T10:23:17.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -78,3 +78,4 @@ _doc/c_data/*.txt
 _doc/c_data/*.xlsx
 _doc/c_data/*.zip
 _doc/c_data/*.dbf
+_notebooks/*qwen*
diff --git a/_doc/articles/2026/2026-03-15-route2026-ml.rst b/_doc/articles/2026/2026-03-15-route2026-ml.rst
@@ -17,8 +17,8 @@ Fonctions utiles:
 
 * :func:`teachpyx.tools.pandas.read_csv_cached`
 
-Séance 1 (6/2)
-==============
+Séance 1 (27/2)
+===============
 
 * rappels sur la régression, classification, clustering, ACP, prétraitements
 * train test, validation croisée
@@ -44,24 +44,151 @@ Peut-on prédire le nombre de candidatures en 2026 pour chaque établissement ?
 
 :ref:`Données parcours-sup 2021-2025 <nbl-practice-years-2026-parcoursup_2026>`
 
-Séance 2 (13/2)
+Séance 2 (5/3)
+==============
+
+* tests unitaires, pourquoi en faire
+* pipelines : pourquoi en faire
+* arbre de décision, comment ça marche ?
+* pourquoi les random forest sont résistantes à l'overfitting
+* qu'est-ce que le gradient boosting tree ?
+* réseau de neurones, comment ça marche ?
+* réseau diabolo et la compression
+* notion d'embedding
+
+quelques notebooks
+
+* arbre de régression, de classification
+  :ref:`RandomForest, Overfitting <nbl-practice-ml-ml_a_tree_overfitting>`
+* Gradient Boosting, :ref:`Gradient Boosting et Learning Rate avec les Random Forest <nbl-practice-ml-gradient_boosting>`
+* Régression linéaire et contraintes sur les coefficients,
+  `Ridge <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html>`_,
+  `Lasso <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html>`_,
+  `ElasticNet <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html>`_,
+  :ref:`Ridge, Lasso, mathématiques <nbl-practice-ml-ridge_lasso>`
+* paramètres et hyper paramètres, :ref:`Sélection des hyper-paramètres <nbl-practice-ml-winesr_knn_hyper>`,
+  :class:`sklearn.model_selection.GridSearchCV`
+* `Data challenge - Algorithme machine learning qui permet de prédire la gravité d’un accident de la rout
+  <https://www.data.gouv.fr/fr/reuses/data-challenge-algorithme-machine-learning-qui-permet-de-predire-la-gravite-dun-accident-de-la-route/>`_
+
+Séance 3 (12/3)
 ===============
 
+* Régression linéaire et contraintes sur les coefficients,
+  `Ridge <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html>`_,
+  `Lasso <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html>`_,
+  `ElasticNet <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html>`_,
+  :ref:`Ridge, Lasso, mathématiques <nbl-practice-ml-ridge_lasso>`
+* paramètres et hyper paramètres, :ref:`Sélection des hyper-paramètres <nbl-practice-ml-winesr_knn_hyper>`,
+  :class:`sklearn.model_selection.GridSearchCV`
+* pipelines (encore)
+* créer son propre estimateur
 * tests unitaires
-* pipelines : pourquoi en faire
 
-Séance 3 (27/2)
-===============
+Pour cette séance, on souhaite construire un estimateur qui estime
+une régression linéaire à coefficients positifs, une autre avec
+des coefficients uniquement négatifs puis pour finir une dernière
+régression linéaire qui considère les deux premières comme features.
 
-Séance 4 (6/3)
-==============
+Une régression linéaire minimise l'erreur
+:math:`\sum_i \left\Vert X_i\theta - y_i \right\Vert^2`.
+Le gradient est :math:`\sum_i X_i'\left( X_i\theta - y_i \right)`.
+
+Comme le modèle souhaité est équivalent à une optimisation sous contrainte,
+on propose de le résoudre comme ceci :
 
-Séance 5 (13/3)
+* On applique une itération de l'algorithme de la descente de gradient :
+  :math:`\theta_{t+1} = \theta_t - \epsilon_t \sum_i X_i'\left( X_i\theta - y_i \right)`.
+* On ne garde que les coefficients positifs : :math:`\theta_{t+1} = \max(0, \theta_t)`.
+* On retourne à l'étape 1 ou on s'arrête si l'algorithme a convergé.
+
+On appliquera cela au jeu de données :func:`sklearn.datasets.load_diabetes` ou
+`Wine Quality <https://archive.ics.uci.edu/datasets?search=wine>`_
+on comparera à une simple régression linéaire, les coefficients sont-ils
+équivalents ? Comment comparer les modèles ?
+
+* :ref:`Nouvel estimateur <nbl-practice-ml-custom_estimator>`
+
+Si on a le temps, traitement des données manquantes.
+
+Séance 4 (19/3)
 ===============
 
-Séance 6 (20/3)
+* rappel : créer son propre estimateur
+* retour sur les tests unitaires
+
+Et puis
+
+* prétraitements : catégorie, dirty catégories, :epkg:`category_encoders`
+* anomalie
+* cartes : :ref:`Tracer une carte <nbl-c_data-enedis_cartes>`,
+  :epkg:`cartopy`, :epkg:`folium`, :epkg:`geopandas`
+* clustering (trainable and pas trainable)
+* TSNE
+
+Un exemple :
+
+* `clustering <https://scikit-learn.org/stable/modules/clustering.html>`_
+* Vieux notebooks sur l'utilisation de vélos à Chicago
+  `City Bike Views <https://github.com/sdpython/ensae_projects/blob/master/_doc/notebooks/challenges/city_bike/city_bike_views.ipynb>`_,
+  `City Bike Clustering <https://github.com/sdpython/ensae_projects/blob/master/_doc/notebooks/challenges/city_bike/city_bike_solution_cluster_start.ipynb>`_,
+
+Séance 5 (26/3)
 ===============
 
+série temporelles
+
+Le modèle de référence est :epkg:`statsmodels`
+
+* :ref:`Single Spectrum Analysis (SSA) <nbl-practice-ml-timeseries_ssa>`
+* :ref:`Décomposition d'une série temporelle <nbl-practice-ml-timeseries_seasonal>`
+
+:epkg:`sktime` propose une API plus proche de :epkg:`scikit-learn`
+et d'autres modèles comme le clusting ou la segmentation de séries temporelles.
+Voir `Estimator Overview <https://www.sktime.net/en/v0.40.1/estimator_overview.html>`_.
+
+* moyennes mobiles
+* saisonnalité
+* DTW
+* HMM, Gaussian HMM
+* ruptures (changements de régime)
+
+:epkg:`prophet` fait aussi de la prédiction et contient aussi des algorithmes
+de détection de changement de régime, il contient une bonne base de jours
+fériés.
+
+**Analyse de survie**
+
+* :epkg:`scikit-survival`, :epkg:`lifelines`, analyses de survie,
+  `Analyse de survie <https://sdpython.github.io/doc/mlstatpy/dev/c_ml/survival_analysis.html>`_,
+
+**Interprétabilité**
+
+* `Partial Dependence <https://scikit-learn.org/stable/modules/partial_dependence.html>`_
+* `Permutation Importance <https://scikit-learn.org/stable/modules/permutation_importance.html>`_
+* `LIME <https://arxiv.org/abs/1602.04938>`_
+* `Shapley value <https://en.wikipedia.org/wiki/Shapley_value>`_,
+  `SHAP <https://shap.readthedocs.io/en/latest/index.html>`_
+* `Counterfactual Reasoning and Learning Systems <https://arxiv.org/abs/1209.2355>`_
+
+**Municipales 2026**
+
+* `premier tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-premier-tour>`_
+* `liste candidates second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-listes-candidates-au-second-tour>`_
+* `second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-second-tour>`_
+
+Séance 6 (3/4)
+==============
+
+* anonymisation : `Latanya Sweeney <https://en.wikipedia.org/wiki/Latanya_Sweeney>`_, vidéo : `Latanya Sweeney: When anonymized data is anything but anonymous <https://www.youtube.com/watch?v=tivCK_fBBfo>`_
+  (k-anonimity, l-diversité, hasard, ...)
+* éthique : apprendre avec et sans, grille
+* LLMs et code
+
+* `premier tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-premier-tour>`_
+* `liste candidates second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-listes-candidates-au-second-tour>`_
+* `second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-second-tour>`_
+
 Evaluation
 ==========
 
diff --git a/_doc/conf.py b/_doc/conf.py
@@ -113,6 +113,7 @@ def linkcode_resolve(domain, info):
 nitpick_ignore = [
     ("py:class", "False"),
     ("py:class", "True"),
+    ("py:class", "pandas.core.frame.DataFrame"),
     ("py:class", "pipeline.Pipeline"),
     ("py:class", "default=sklearn.utils.metadata_routing.UNCHANGED"),
     ("py:class", "sklearn.utils._metadata_requests.RequestMethod"),
diff --git a/_doc/examples/ml/plot_template_data.py b/_doc/examples/ml/plot_template_data.py
@@ -73,6 +73,12 @@ def compute_oracle(table, cible):
         .dropna(axis=0)
         .sort_index()
     )
+    # Keep only rows where both 2024 and 2025 have non-missing values
+    piv = piv.dropna(axis=0, how="any")
+    if piv.empty:
+        raise ValueError(
+            "Not enough overlapping data between 2024 and 2025 to compute oracle."
+        )
     return mean_absolute_error(piv[2025], piv[2024])
 
 
@@ -95,16 +101,19 @@ def make_pipeline(table, cible):
     num_cols = ["Capacité de l’établissement par formation"]
     cat_cols = [c for c in vars if c not in num_cols]
 
+    transformers = []
+    if num_cols:
+        transformers.append(("num", StandardScaler(), num_cols))
+    if cat_cols:
+        transformers.append(
+            ("cats", OneHotEncoder(handle_unknown="ignore"), cat_cols)
+        )
+
     model = Pipeline(
         [
             (
                 "preprocessing",
-                ColumnTransformer(
-                    [
-                        ("num", StandardScaler(), num_cols),
-                        ("cats", OneHotEncoder(handle_unknown="ignore"), cat_cols),
-                    ]
-                ),
+                ColumnTransformer(transformers),
             ),
             ("regressor", HistGradientBoostingRegressor()),
         ]
@@ -114,9 +123,9 @@ def make_pipeline(table, cible):
 
 data = get_data()
 table, cible = select_variables_and_clean(data)
-oracle = compute_oracle(table, cible)
-print(f"oracle : {oracle}")
+# oracle = compute_oracle(table, cible)
+# print(f"oracle : {oracle}")
 
-train_X, test_X, train_y, test_y = split_train_test(table, cible)
-model = make_pipeline(table, cible)
-model.fit(train_X, train_y)
+# train_X, test_X, train_y, test_y = split_train_test(table, cible)
+# model = make_pipeline(table, cible)
+# model.fit(train_X, train_y)
diff --git a/_notebooks/celine_pairs.csv b/_notebooks/celine_pairs.csv
@@ -0,0 +1,22 @@
+normal,celine
+"Machine learning is transforming the tech industry.","Ça bouge là… le machine learning… tout fout le camp… la tech qui crie…"
+"Deep learning allows computers to recognize images.","Les machines… elles voient… elles comprennent… images partout… t'y crois pas…"
+"Neural networks mimic the brain's structure.","Les réseaux neurones… comme le cerveau… ça gigote… et toi t'attends quoi…"
+"AI models improve with more data.","Les modèles… plus t'as de données… mieux ça tourne… ou pas…"
+"Supervised learning uses labeled datasets.","Supervisé… c'est toi qui dis quoi… les données… qui doivent parler…"
+"Reinforcement learning rewards good behavior.","Apprentissage par renforcement… tu fais bien… on te tape dans le dos… ou pas…"
+"Training a model requires lots of computation.","Faut calculer… calculer… le modèle… il chauffe… ça fuse…"
+"Overfitting happens when a model learns noise.","Surapprentissage… le modèle écoute trop… le bruit… il croit que c'est vrai…"
+"Hyperparameters need careful tuning.","Hyperparamètres… faut les tripoter… doucement… ou tout foirer…"
+"Data preprocessing is essential for quality results.","Préparer les données… sinon rien… résultat pourri…"
+"L'apprentissage automatique transforme l'industrie technologique.","Ça bouge là… l'apprentissage automatique… la tech qui s'agite…"
+"L'apprentissage profond permet aux ordinateurs de reconnaître des images.","Les machines… elles voient… elles pigent… images partout…"
+"Les réseaux de neurones imitent la structure du cerveau.","Réseaux de neurones… comme le cerveau… ça bouge… et toi t'attends quoi…"
+"Les modèles d'IA s'améliorent avec plus de données.","Les modèles… plus t'as de données… mieux ça marche… ou pas…"
+"L'apprentissage supervisé utilise des ensembles de données étiquetées.","Supervisé… c'est toi qui dis quoi… les données… faut qu'elles parlent…"
+"L'apprentissage par renforcement récompense les bons comportements.","Renforcement… tu fais bien… on te tape dans le dos… ou pas…"
+"L'entraînement d'un modèle nécessite beaucoup de calculs.","Faut calculer… calculer… le modèle… ça chauffe…"
+"Le surapprentissage se produit quand un modèle apprend le bruit.","Surapprentissage… le modèle écoute trop… le bruit… il croit que c'est vrai…"
+"Les hyperparamètres nécessitent un réglage minutieux.","Hyperparamètres… faut tripoter… doucement… ou tout foirer…"
+"La prétraitement des données est essentiel pour obtenir des résultats de qualité.","Préparer les données… sinon rien… résultat pourri…"
+"L'automatisation de la gestion des ressources : Cette idée propose de développer une application qui permet de gérer les ressources en utilisant des algorithmes de machine learning. Les utilisateurs peuvent ajouter ou supprimer des ressources, et les algorithmes de machine learning peuvent les optimiser pour maximiser la performance de la machine.","Ça commence comme ça… automatiser la gestion des ressources… une application… tu vois… qui gère tout… avec des algos… machine learning… qui décident… tu peux ajouter… enlever des ressources… et les algos… ils optimisent… pour que la machine tourne… au max… tout ça… tout le temps… ça bouge… ça chauffe…"
diff --git a/_notebooks/llm_example.ipynb b/_notebooks/llm_example.ipynb