Add per-repo CSV cache to github_stat_pr notebook

Copilot · xadupre · web-flow · commit c77d6b188124 · 2026-04-24T08:05:07.000Z
Agent-Logs-Url: https://github.com/sdpython/teachpyx/sessions/165cfed9-fab7-41fa-8323-206c02efe66c Co-authored-by: xadupre <22452781+xadupre@users.noreply.github.com>
diff --git a/_doc/practice/years/2026/github_stat_pr.ipynb b/_doc/practice/years/2026/github_stat_pr.ipynb
@@ -10,6 +10,10 @@
     "pour **un ou plusieurs dépôts**, les regroupe par auteur et par semaine sur l'année écoulée,\n",
     "puis affiche le résultat sous forme de graphique.\n",
     "\n",
+    "Les données récupérées sont **mises en cache** localement (un fichier CSV par dépôt).\n",
+    "Lors des exécutions suivantes, seules les PR plus récentes que la dernière date mise en cache\n",
+    "sont requêtées, ce qui réduit considérablement le nombre d'appels à l'API.\n",
+    "\n",
     "**Dépendances :** `requests`, `pandas`, `matplotlib`.\n",
     "\n",
     "**Token GitHub :** l'API GitHub limite les appels non authentifiés à 60 requêtes par heure.\n",
@@ -31,6 +35,7 @@
    "source": [
     "import os\n",
     "import datetime\n",
+    "import pathlib\n",
     "import requests\n",
     "import pandas as pd\n",
     "import matplotlib.pyplot as plt\n",
@@ -43,8 +48,9 @@
    "source": [
     "## Paramètres\n",
     "\n",
-    "Modifiez `REPOS` pour lister les dépôts à analyser sous la forme\n",
-    "`[(owner, repo), ...]`. Vous pouvez ajouter autant de dépôts que vous le souhaitez."
+    "* `REPOS` — liste de dépôts à analyser sous la forme `[(owner, repo), ...]`.\n",
+    "* `CACHE_DIR` — répertoire où sont stockés les fichiers CSV de cache (un par dépôt).\n",
+    "  Utilisez `\".\"` pour enregistrer les fichiers à côté du notebook."
    ]
   },
   {
@@ -58,6 +64,9 @@
     "    # (\"sdpython\", \"onnx-extended\"),  # ajoutez d'autres dépôts ici\n",
     "]\n",
     "\n",
+    "# Répertoire de cache (créé automatiquement si nécessaire)\n",
+    "CACHE_DIR = pathlib.Path(\".\")\n",
+    "\n",
     "# Jeton d'authentification GitHub (optionnel mais recommandé)\n",
     "GITHUB_TOKEN = os.environ.get(\"GITHUB_TOKEN\", \"\")"
    ]
@@ -66,14 +75,17 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## Récupération des PR fusionnées via l'API GitHub\n",
+    "## Récupération des PR fusionnées via l'API GitHub (avec cache)\n",
     "\n",
-    "L'API REST GitHub expose le point d'accès `/repos/{owner}/{repo}/pulls`\n",
-    "avec `state=closed`. On filtre ensuite les PR dont le champ `merged_at` est renseigné\n",
-    "et dont la date de fusion est dans les 12 derniers mois.\n",
+    "Pour chaque dépôt :\n",
     "\n",
-    "La pagination est gérée via le paramètre `page`.\n",
-    "La boucle principale itère sur chaque dépôt listé dans `REPOS`."
+    "1. On charge le fichier CSV de cache s'il existe (`prs_cache_{owner}_{repo}.csv`).\n",
+    "2. On détermine la date la plus récente déjà présente dans le cache.\n",
+    "3. On ne récupère auprès de l'API que les PR fusionnées **après** cette date\n",
+    "   (ou toutes si le cache est vide).\n",
+    "4. On fusionne les nouvelles PR avec le cache, on supprime les doublons\n",
+    "   et on élague les entrées datant de plus de 365 jours.\n",
+    "5. On sauvegarde le cache mis à jour sur disque."
    ]
   },
   {
@@ -82,19 +94,63 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "def fetch_merged_prs(owner: str, repo: str, token: str = \"\") -> list[dict]:\n",
-    "    \"\"\"Récupère toutes les PR fusionnées au cours de l'année écoulée pour un dépôt.\n",
+    "CACHE_DATE_FMT = \"%Y-%m-%dT%H:%M:%S%z\"\n",
+    "\n",
+    "\n",
+    "def _cache_path(cache_dir: pathlib.Path, owner: str, repo: str) -> pathlib.Path:\n",
+    "    \"\"\"Retourne le chemin du fichier CSV de cache pour un dépôt.\"\"\"\n",
+    "    safe = f\"{owner}_{repo}\".replace(\"/\", \"_\")\n",
+    "    return cache_dir / f\"prs_cache_{safe}.csv\"\n",
+    "\n",
+    "\n",
+    "def load_cache(\n",
+    "    cache_dir: pathlib.Path, owner: str, repo: str\n",
+    ") -> pd.DataFrame:\n",
+    "    \"\"\"Charge le cache CSV pour un dépôt (retourne un DataFrame vide si absent).\"\"\"\n",
+    "    path = _cache_path(cache_dir, owner, repo)\n",
+    "    if not path.exists():\n",
+    "        return pd.DataFrame(columns=[\"author\", \"merged_at\", \"repo\"])\n",
+    "    df = pd.read_csv(path, parse_dates=[\"merged_at\"])\n",
+    "    # S'assurer que la colonne est bien tz-aware (UTC)\n",
+    "    if df[\"merged_at\"].dt.tz is None:\n",
+    "        df[\"merged_at\"] = df[\"merged_at\"].dt.tz_localize(\"UTC\")\n",
+    "    else:\n",
+    "        df[\"merged_at\"] = df[\"merged_at\"].dt.tz_convert(\"UTC\")\n",
+    "    return df\n",
+    "\n",
+    "\n",
+    "def save_cache(\n",
+    "    cache_dir: pathlib.Path, owner: str, repo: str, df: pd.DataFrame\n",
+    ") -> None:\n",
+    "    \"\"\"Sauvegarde le DataFrame dans le fichier CSV de cache.\"\"\"\n",
+    "    cache_dir.mkdir(parents=True, exist_ok=True)\n",
+    "    path = _cache_path(cache_dir, owner, repo)\n",
+    "    df.to_csv(path, index=False, date_format=CACHE_DATE_FMT)\n",
+    "\n",
+    "\n",
+    "def fetch_merged_prs(\n",
+    "    owner: str,\n",
+    "    repo: str,\n",
+    "    token: str = \"\",\n",
+    "    fetch_since: datetime.datetime | None = None,\n",
+    ") -> list[dict]:\n",
+    "    \"\"\"Récupère les PR fusionnées pour un dépôt à partir d'une date donnée.\n",
     "\n",
     "    :param owner: propriétaire du dépôt GitHub\n",
     "    :param repo: nom du dépôt GitHub\n",
     "    :param token: jeton d'authentification GitHub (optionnel)\n",
-    "    :return: liste de dictionnaires avec les champs ``author``, ``merged_at``, ``repo``\n",
+    "    :param fetch_since: si fourni, on s'arrête dès que ``merged_at`` est antérieur\n",
+    "        à cette date (les PR plus anciennes sont déjà en cache).\n",
+    "        Si ``None``, on remonte jusqu'à 365 jours en arrière.\n",
+    "    :return: liste de dictionnaires ``{author, merged_at, repo}``\n",
     "    \"\"\"\n",
     "    headers = {\"Accept\": \"application/vnd.github+json\"}\n",
     "    if token:\n",
     "        headers[\"Authorization\"] = f\"Bearer {token}\"\n",
     "\n",
-    "    since = datetime.datetime.now(datetime.timezone.utc) - datetime.timedelta(days=365)\n",
+    "    cutoff = fetch_since if fetch_since is not None else (\n",
+    "        datetime.datetime.now(datetime.timezone.utc) - datetime.timedelta(days=365)\n",
+    "    )\n",
     "\n",
     "    results = []\n",
     "    page = 1\n",
@@ -135,7 +191,7 @@
     "            if not merged_at:\n",
     "                continue\n",
     "            merged_dt = datetime.datetime.fromisoformat(merged_at.replace(\"Z\", \"+00:00\"))\n",
-    "            if merged_dt < since:\n",
+    "            if merged_dt <= cutoff:\n",
     "                stop = True\n",
     "                break\n",
     "            author = (pr.get(\"user\") or {}).get(\"login\", \"unknown\")\n",
@@ -149,13 +205,64 @@
     "    return results\n",
     "\n",
     "\n",
-    "merged_prs = []\n",
+    "def load_prs_with_cache(\n",
+    "    owner: str, repo: str, token: str = \"\", cache_dir: pathlib.Path = pathlib.Path(\".\")\n",
+    ") -> pd.DataFrame:\n",
+    "    \"\"\"Charge les PR fusionnées pour un dépôt en utilisant le cache local.\n",
+    "\n",
+    "    * Si le cache existe, seules les PR plus récentes que la dernière entrée\n",
+    "      mise en cache sont récupérées via l'API.\n",
+    "    * Le cache est élagué pour ne conserver que les 365 derniers jours.\n",
+    "    * Le cache mis à jour est sauvegardé sur disque.\n",
+    "\n",
+    "    :return: DataFrame avec les colonnes ``author``, ``merged_at``, ``repo``\n",
+    "    \"\"\"\n",
+    "    now = datetime.datetime.now(datetime.timezone.utc)\n",
+    "    cutoff_365 = now - datetime.timedelta(days=365)\n",
+    "\n",
+    "    cached_df = load_cache(cache_dir, owner, repo)\n",
+    "\n",
+    "    if cached_df.empty:\n",
+    "        fetch_since = None  # récupérer toute l'année\n",
+    "        print(f\"  {owner}/{repo} : cache vide, récupération complète…\")\n",
+    "    else:\n",
+    "        # Relancer depuis le début de la journée du dernier enregistrement\n",
+    "        # pour ne pas manquer de PR fusionnées en cours de journée.\n",
+    "        latest = cached_df[\"merged_at\"].max()\n",
+    "        fetch_since = latest.replace(hour=0, minute=0, second=0, microsecond=0)\n",
+    "        print(\n",
+    "            f\"  {owner}/{repo} : cache chargé ({len(cached_df)} entrées), \"\n",
+    "            f\"récupération des PR depuis {fetch_since.date()}…\"\n",
+    "        )\n",
+    "\n",
+    "    new_prs = fetch_merged_prs(owner, repo, token, fetch_since=fetch_since)\n",
+    "    print(f\"    → {len(new_prs)} nouvelle(s) PR(s) récupérée(s) via l'API.\")\n",
+    "\n",
+    "    if new_prs:\n",
+    "        new_df = pd.DataFrame(new_prs)\n",
+    "        combined = pd.concat([cached_df, new_df], ignore_index=True)\n",
+    "    else:\n",
+    "        combined = cached_df.copy()\n",
+    "\n",
+    "    # Dédoublonnage et élagage\n",
+    "    combined.drop_duplicates(subset=[\"repo\", \"author\", \"merged_at\"], inplace=True)\n",
+    "    combined = combined[combined[\"merged_at\"] >= cutoff_365].copy()\n",
+    "    combined.sort_values(\"merged_at\", inplace=True)\n",
+    "    combined.reset_index(drop=True, inplace=True)\n",
+    "\n",
+    "    save_cache(cache_dir, owner, repo, combined)\n",
+    "    print(f\"    → cache mis à jour ({len(combined)} entrées au total).\")\n",
+    "\n",
+    "    return combined\n",
+    "\n",
+    "\n",
+    "merged_prs_frames = []\n",
     "for owner, repo in REPOS:\n",
-    "    prs = fetch_merged_prs(owner, repo, GITHUB_TOKEN)\n",
-    "    print(f\"  {owner}/{repo} : {len(prs)} PR(s) fusionnée(s)\")\n",
-    "    merged_prs.extend(prs)\n",
+    "    repo_df = load_prs_with_cache(owner, repo, GITHUB_TOKEN, CACHE_DIR)\n",
+    "    merged_prs_frames.append(repo_df)\n",
     "\n",
-    "print(f\"Total : {len(merged_prs)} PR(s) fusionnée(s) sur l'ensemble des dépôts.\")"
+    "merged_prs = pd.concat(merged_prs_frames, ignore_index=True) if merged_prs_frames else pd.DataFrame()\n",
+    "print(f\"\\nTotal : {len(merged_prs)} PR(s) fusionnée(s) sur l'ensemble des dépôts.\")"
    ]
   },
   {
@@ -171,7 +278,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "df = pd.DataFrame(merged_prs)\n",
+    "df = merged_prs.copy() if not merged_prs.empty else pd.DataFrame(columns=[\"author\", \"merged_at\", \"repo\"])\n",
     "\n",
     "if df.empty:\n",
     "    print(\"Aucune donnée à afficher.\")\n",