fix(mlx_metal_kernel_opt): align prompt examples and harden runner env

lanmogu98 · lanmogu98 · commit 2b5aec0ca203 · 2026-01-06T18:18:41.000+08:00
diff --git a/examples/mlx_metal_kernel_opt/config.yaml b/examples/mlx_metal_kernel_opt/config.yaml
@@ -4,9 +4,9 @@ log_level: "INFO"
 
 # LLM configuration for Metal kernel optimization
 llm:
-  primary_model: "gemini-2.5-flash-preview-05-20"
+  primary_model: "gemini-2.5-flash"
   primary_model_weight: 0.6
-  secondary_model: "gemini-2.5-pro-preview-06-05"
+  secondary_model: "gemini-2.5-pro"
   secondary_model_weight: 0.4
   api_base: "https://generativelanguage.googleapis.com/v1beta/openai/"
   temperature: 0.6
@@ -78,7 +78,7 @@ prompt:
     // CURRENT: Basic kv_head_idx = head_idx / HEADS_PER_KV
     // OPTIMIZE: Leverage the specific 2:1 ratio pattern
     
-    // Example: Process 5 query heads together for each KV head
+    // Example: Process 2 query heads together for each KV head
     // Example: Optimize memory layout for the 16:8 pattern
     // Example: Reduce broadcast overhead through clever indexing
     ```
@@ -181,7 +181,7 @@ prompt:
     **Strategy 4: GQA Pattern Exploitation**
     ```metal
     // Optimize for the specific 2:1 query:KV ratio
-    // Process query heads in groups of 5
+    // Process query heads in groups of 2
     // Reduce KV head indexing overhead
     ```
     
diff --git a/examples/mlx_metal_kernel_opt/run_evolve_experiment.sh b/examples/mlx_metal_kernel_opt/run_evolve_experiment.sh
@@ -50,8 +50,6 @@ USAGE
 # Force unbuffered Python output for reliable logging
 export PYTHONUNBUFFERED=1
 
-export OPENAI_API_KEY=$GEMINI_API_KEY
-
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 
 RUN_NAME=""