move pi-llm-performance to this repo

2026-04-28 10:00:45 +01:00 · 2026-04-28 10:00:45 +01:00 · 0cf13ed54e
commit 0cf13ed54e
parent c62eb432bf
7 changed files with 1162 additions and 0 deletions
--- a/packages/pi-llm-performance/README.md
+++ b/packages/pi-llm-performance/README.md
@ -0,0 +1,30 @@
 # pi-llm-performance
 LLM performance metrics extension
 ## How to install
 Add to your global pi settings:
 ```bash
 pi install /Users/willem/dev/spikes/llm/custom-coding-agent/packages/pi-llm-performance
 ```
 Or add manually to `~/.pi/agent/settings.json`:
 ```
  "packages": [
    "/Users/willem/dev/spikes/llm/custom-coding-agent/packages/pi-llm-performance",
    ...
  ]
 ```
 Then reload pi:
 ```bash
 /reload
 ```
 ## License
 MIT
--- a/packages/pi-llm-performance/deno.lock
+++ b/packages/pi-llm-performance/deno.lock
@ -0,0 +1,18 @@
 {
  "version": "5",
  "specifiers": {
    "jsr:@std/assert@*": "1.0.19",
    "jsr:@std/internal@^1.0.12": "1.0.12"
  },
  "jsr": {
    "@std/assert@1.0.19": {
      "integrity": "eaada96ee120cb980bc47e040f82814d786fe8162ecc53c91d8df60b8755991e",
      "dependencies": [
        "jsr:@std/internal"
      ]
    },
    "@std/internal@1.0.12": {
      "integrity": "972a634fd5bc34b242024402972cd5143eac68d8dffaca5eaa4dba30ce17b027"
    }
  }
 }
--- a/packages/pi-llm-performance/package.json
+++ b/packages/pi-llm-performance/package.json
@ -0,0 +1,17 @@
 {
  "name": "pi-llm-performance",
  "version": "0.1.0",
  "description": "LLM performance metrics extension",
  "type": "module",
  "exports": {
    ".": "./src/llm-performance-metrics.ts"
  },
  "keywords": ["pi-package"],
  "pi": {
    "extensions": ["src/llm-performance-metrics.ts"]
  },
  "peerDependencies": {
    "@mariozechner/pi-coding-agent": "*"
  },
  "license": "MIT"
 }
--- a/packages/pi-llm-performance/src/llm-metrics-core.test.ts
+++ b/packages/pi-llm-performance/src/llm-metrics-core.test.ts
@ -0,0 +1,398 @@
 import {
  calculateTurnMetrics,
  aggregatePromptMetrics,
  formatMetricsForDisplay,
  toLogEntry,
  type TurnMetrics,
  type PromptMetrics,
 } from "./llm-metrics-core.ts";
 import { assertEquals, assertGreaterOrEqual, assertLessOrEqual } from "jsr:@std/assert";
 Deno.test("calculateTurnMetrics - creates turn metrics object", () => {
  const result = calculateTurnMetrics({
    turnId: "turn-1",
    inputTokens: 100,
    outputTokens: 50,
    durationMs: 2000,
    timeToFirstTokenMs: 500,
  });
  assertEquals(result.turnId, "turn-1");
  assertEquals(result.inputTokens, 100);
  assertEquals(result.outputTokens, 50);
  assertEquals(result.durationMs, 2000);
  assertEquals(result.timeToFirstTokenMs, 500);
 });
 Deno.test("calculateTurnMetrics - handles missing timeToFirstToken", () => {
  const result = calculateTurnMetrics({
    turnId: "turn-1",
    inputTokens: 100,
    outputTokens: 50,
    durationMs: 2000,
  });
  assertEquals(result.timeToFirstTokenMs, undefined);
 });
 Deno.test("aggregatePromptMetrics - aggregates single turn", () => {
  const turnMetrics: TurnMetrics[] = [
    {
      turnId: "turn-1",
      inputTokens: 1000,
      outputTokens: 200,
      durationMs: 5000,
      timeToFirstTokenMs: 800,
    },
  ];
  const result = aggregatePromptMetrics({
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnMetrics,
  });
  assertEquals(result.provider, "anthropic");
  assertEquals(result.model, "claude-sonnet-4");
  assertEquals(result.turnCount, 1);
  assertEquals(result.inputTokens, 1000);
  assertEquals(result.outputTokens, 200);
  assertEquals(result.totalTokens, 1200);
  assertEquals(result.totalDurationMs, 5000);
  assertEquals(result.timeToFirstTokenMs, 800);
  // Tokens per second calculations
  // prefill: 1000 input tokens / 0.8s TTFT = 1250 tok/s
  assertEquals(result.prefillTokensPerSec, 1250);
  // generation: 200 output tokens / 4.2s (5s - 0.8s) = 47.62 tok/s
  assertGreaterOrEqual(result.generationTokensPerSec, 47.6);
  assertLessOrEqual(result.generationTokensPerSec, 47.7);
  // combined: 1200 total tokens / 5s = 240 tok/s
  assertEquals(result.combinedTokensPerSec, 240);
 });
 Deno.test("aggregatePromptMetrics - aggregates multiple turns", () => {
  const turnMetrics: TurnMetrics[] = [
    {
      turnId: "turn-1",
      inputTokens: 1000,
      outputTokens: 200,
      durationMs: 3000,
      timeToFirstTokenMs: 800,
    },
    {
      turnId: "turn-2",
      inputTokens: 500,
      outputTokens: 150,
      durationMs: 2000,
    },
    {
      turnId: "turn-3",
      inputTokens: 300,
      outputTokens: 100,
      durationMs: 1500,
    },
  ];
  const result = aggregatePromptMetrics({
    provider: "openai",
    model: "gpt-4o",
    turnMetrics,
  });
  assertEquals(result.turnCount, 3);
  assertEquals(result.inputTokens, 1800); // 1000 + 500 + 300
  assertEquals(result.outputTokens, 450); // 200 + 150 + 100
  assertEquals(result.totalTokens, 2250);
  assertEquals(result.totalDurationMs, 6500); // 3000 + 2000 + 1500
  assertEquals(result.timeToFirstTokenMs, 800); // From first turn only
  // Tokens per second: prefill uses TTFT (0.8s), generation uses (total - TTFT) = 5.7s
  // prefill: 1800 / 0.8 = 2250 tok/s
  assertEquals(result.prefillTokensPerSec, 2250);
  // generation: 450 / 5.7 = 78.95 tok/s
  assertGreaterOrEqual(result.generationTokensPerSec, 78.9);
  assertLessOrEqual(result.generationTokensPerSec, 79.0);
  // combined: 2250 / 6.5 = 346.15 tok/s
  assertGreaterOrEqual(result.combinedTokensPerSec, 346.1);
  assertLessOrEqual(result.combinedTokensPerSec, 346.2);
 });
 Deno.test("aggregatePromptMetrics - handles empty turn list", () => {
  const result = aggregatePromptMetrics({
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnMetrics: [],
  });
  assertEquals(result.turnCount, 0);
  assertEquals(result.inputTokens, 0);
  assertEquals(result.outputTokens, 0);
  assertEquals(result.totalTokens, 0);
  assertEquals(result.prefillTokensPerSec, 0);
  assertEquals(result.generationTokensPerSec, 0);
  assertEquals(result.combinedTokensPerSec, 0);
  assertEquals(result.totalDurationMs, 0);
  assertEquals(result.timeToFirstTokenMs, undefined);
 });
 Deno.test("formatMetricsForDisplay - formats single turn metrics", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 1,
    inputTokens: 1250,
    outputTokens: 342,
    totalTokens: 1592,
    prefillTokensPerSec: 482.1,
    generationTokensPerSec: 18.3,
    combinedTokensPerSec: 38.0,
    totalDurationMs: 21600,
    timeToFirstTokenMs: 850,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("anthropic/claude-sonnet-4"), true);
  assertEquals(display.includes("1,250 tokens"), true);
  assertEquals(display.includes("482.1 tok/s"), true);
  assertEquals(display.includes("342 tokens"), true);
  assertEquals(display.includes("18.3 tok/s"), true);
  assertEquals(display.includes("1,592 tokens"), true);
  assertEquals(display.includes("38.0 tok/s"), true);
  assertEquals(display.includes("21.6s"), true);
  assertEquals(display.includes("TTFT: 850ms"), true);
 });
 Deno.test("formatMetricsForDisplay - formats duration as minutes when over 60s", () => {
  const metrics: PromptMetrics = {
    provider: "openai",
    model: "gpt-4o",
    turnCount: 1,
    inputTokens: 5000,
    outputTokens: 1000,
    totalTokens: 6000,
    prefillTokensPerSec: 50,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 60,
    totalDurationMs: 120000, // 2 minutes
    timeToFirstTokenMs: 1500,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("2.0m"), true);
 });
 Deno.test("formatMetricsForDisplay - omits turn count when single turn", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 1,
    inputTokens: 100,
    outputTokens: 50,
    totalTokens: 150,
    prefillTokensPerSec: 20,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 30,
    totalDurationMs: 5000,
    timeToFirstTokenMs: 500,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("Turns: 1"), false);
 });
 Deno.test("formatMetricsForDisplay - omits prefill/generation when TTFT is unavailable", () => {
  const metrics: PromptMetrics = {
    provider: "openai",
    model: "gpt-4o",
    turnCount: 1,
    inputTokens: 1000,
    outputTokens: 200,
    totalTokens: 1200,
    prefillTokensPerSec: 0,
    generationTokensPerSec: 0,
    combinedTokensPerSec: 240,
    totalDurationMs: 5000,
    timeToFirstTokenMs: undefined,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("Prefill:"), false);
  assertEquals(display.includes("Generation:"), false);
  assertEquals(display.includes("1,200 tokens"), true);
  assertEquals(display.includes("240.0 tok/s"), true);
 });
 Deno.test("formatMetricsForDisplay - shows turn count when multiple turns", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 3,
    inputTokens: 100,
    outputTokens: 50,
    totalTokens: 150,
    prefillTokensPerSec: 20,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 30,
    totalDurationMs: 5000,
    timeToFirstTokenMs: 500,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("Turns: 3"), true);
 });
 Deno.test("toLogEntry - creates JSON-serializable log entry", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 2,
    inputTokens: 1250,
    outputTokens: 342,
    totalTokens: 1592,
    prefillTokensPerSec: 482.12345,
    generationTokensPerSec: 18.34567,
    combinedTokensPerSec: 38.09876,
    totalDurationMs: 21600,
    timeToFirstTokenMs: 850,
    turns: [],
  };
  const logEntry = toLogEntry(metrics);
  assertEquals(logEntry.provider, "anthropic");
  assertEquals(logEntry.model, "claude-sonnet-4");
  assertEquals(logEntry.turnCount, 2);
  assertEquals(logEntry.inputTokens, 1250);
  assertEquals(logEntry.outputTokens, 342);
  assertEquals(logEntry.totalTokens, 1592);
  // Rounded to 2 decimal places
  assertEquals(logEntry.prefillTokensPerSec, 482.12);
  assertEquals(logEntry.generationTokensPerSec, 18.35);
  assertEquals(logEntry.combinedTokensPerSec, 38.1);
  assertEquals(logEntry.totalDurationMs, 21600);
  assertEquals(logEntry.timeToFirstTokenMs, 850);
  // Should have ISO timestamp
  assertEquals(logEntry.timestamp.includes("T"), true);
  assertEquals(logEntry.timestamp.includes("Z"), true);
  // Should be JSON serializable
  const json = JSON.stringify(logEntry);
  assertEquals(json.length > 0, true);
  const parsed = JSON.parse(json);
  assertEquals(parsed.provider, "anthropic");
 });
 Deno.test("aggregatePromptMetrics - uses full duration when TTFT is undefined", () => {
  const turnMetrics: TurnMetrics[] = [
    {
      turnId: "turn-1",
      inputTokens: 1000,
      outputTokens: 200,
      durationMs: 5000,
      // No timeToFirstTokenMs
    },
  ];
  const result = aggregatePromptMetrics({
    provider: "openai",
    model: "gpt-4o",
    turnMetrics,
  });
  assertEquals(result.turnCount, 1);
  assertEquals(result.inputTokens, 1000);
  assertEquals(result.outputTokens, 200);
  // Without TTFT, prefill and generation rates are 0 (cannot separate phases)
  // Only combined rate is meaningful
  assertEquals(result.prefillTokensPerSec, 0);
  assertEquals(result.generationTokensPerSec, 0);
  assertEquals(result.combinedTokensPerSec, 240);
 });
 Deno.test("toLogEntry - handles missing timeToFirstToken", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 1,
    inputTokens: 100,
    outputTokens: 50,
    totalTokens: 150,
    prefillTokensPerSec: 20,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 30,
    totalDurationMs: 5000,
    timeToFirstTokenMs: undefined,
    turns: [],
  };
  const logEntry = toLogEntry(metrics);
  assertEquals(logEntry.timeToFirstTokenMs, undefined);
 });
 Deno.test("Integration - full flow from turns to log entry", () => {
  // Simulate a real scenario with multiple turns
  const turn1 = calculateTurnMetrics({
    turnId: "turn-1",
    inputTokens: 2000,
    outputTokens: 500,
    durationMs: 8000,
    timeToFirstTokenMs: 1200,
  });
  const turn2 = calculateTurnMetrics({
    turnId: "turn-2",
    inputTokens: 800,
    outputTokens: 200,
    durationMs: 3000,
  });
  const promptMetrics = aggregatePromptMetrics({
    provider: "groq",
    model: "llama-3.1-70b",
    turnMetrics: [turn1, turn2],
  });
  const display = formatMetricsForDisplay(promptMetrics);
  const logEntry = toLogEntry(promptMetrics);
  // Verify aggregation
  assertEquals(promptMetrics.turnCount, 2);
  assertEquals(promptMetrics.inputTokens, 2800);
  assertEquals(promptMetrics.outputTokens, 700);
  assertEquals(promptMetrics.totalTokens, 3500);
  assertEquals(promptMetrics.totalDurationMs, 11000);
  assertEquals(promptMetrics.timeToFirstTokenMs, 1200);
  // Verify corrected rate calculations
  // prefill: 2800 / 1.2 = 2333.33 tok/s
  assertGreaterOrEqual(promptMetrics.prefillTokensPerSec, 2333.3);
  assertLessOrEqual(promptMetrics.prefillTokensPerSec, 2333.4);
  // generation: 700 / 9.8 = 71.43 tok/s
  assertGreaterOrEqual(promptMetrics.generationTokensPerSec, 71.4);
  assertLessOrEqual(promptMetrics.generationTokensPerSec, 71.5);
  // combined: 3500 / 11 = 318.18 tok/s
  assertGreaterOrEqual(promptMetrics.combinedTokensPerSec, 318.1);
  assertLessOrEqual(promptMetrics.combinedTokensPerSec, 318.2);
  // Verify display contains key info
  assertEquals(display.includes("groq/llama-3.1-70b"), true);
  assertEquals(display.includes("TTFT: 1200ms"), true);
  // Verify log entry
  assertEquals(logEntry.provider, "groq");
  assertEquals(logEntry.model, "llama-3.1-70b");
  assertEquals(logEntry.turnCount, 2);
 });
--- a/packages/pi-llm-performance/src/llm-metrics-core.ts
+++ b/packages/pi-llm-performance/src/llm-metrics-core.ts
@ -0,0 +1,201 @@
 // Functional core for LLM performance metrics calculation
 export interface TurnMetrics {
  turnId: string;
  inputTokens: number;
  outputTokens: number;
  durationMs: number;
  timeToFirstTokenMs?: number;
 }
 export interface PromptMetrics {
  provider: string;
  model: string;
  turnCount: number;
  inputTokens: number;
  outputTokens: number;
  totalTokens: number;
  prefillTokensPerSec: number;
  generationTokensPerSec: number;
  combinedTokensPerSec: number;
  totalDurationMs: number;
  timeToFirstTokenMs?: number;
  turns: TurnMetrics[];
 }
 export interface MetricLogEntry {
  timestamp: string;
  provider: string;
  model: string;
  turnCount: number;
  inputTokens: number;
  outputTokens: number;
  totalTokens: number;
  prefillTokensPerSec: number;
  generationTokensPerSec: number;
  combinedTokensPerSec: number;
  totalDurationMs: number;
  timeToFirstTokenMs?: number;
 }
 /**
 * Calculate metrics for a single turn
 */
 export function calculateTurnMetrics(params: {
  turnId: string;
  inputTokens: number;
  outputTokens: number;
  durationMs: number;
  timeToFirstTokenMs?: number;
 }): TurnMetrics {
  return {
    turnId: params.turnId,
    inputTokens: params.inputTokens,
    outputTokens: params.outputTokens,
    durationMs: params.durationMs,
    timeToFirstTokenMs: params.timeToFirstTokenMs,
  };
 }
 /**
 * Aggregate multiple turn metrics into prompt-level metrics
 */
 export function aggregatePromptMetrics(params: {
  provider: string;
  model: string;
  turnMetrics: TurnMetrics[];
 }): PromptMetrics {
  const { provider, model, turnMetrics } = params;
  if (turnMetrics.length === 0) {
    return {
      provider,
      model,
      turnCount: 0,
      inputTokens: 0,
      outputTokens: 0,
      totalTokens: 0,
      prefillTokensPerSec: 0,
      generationTokensPerSec: 0,
      combinedTokensPerSec: 0,
      totalDurationMs: 0,
      turns: [],
    };
  }
  // Sum tokens across all turns
  const inputTokens = turnMetrics.reduce((sum, t) => sum + t.inputTokens, 0);
  const outputTokens = turnMetrics.reduce((sum, t) => sum + t.outputTokens, 0);
  const totalTokens = inputTokens + outputTokens;
  // Sum duration across all turns
  const totalDurationMs = turnMetrics.reduce((sum, t) => sum + t.durationMs, 0);
  const totalDurationSec = totalDurationMs / 1000;
  // Time to first token is from the first turn
  const timeToFirstTokenMs = turnMetrics[0]?.timeToFirstTokenMs;
  // Calculate tokens per second
  // Prefill: input tokens / TTFT duration (prefill phase)
  // Generation: output tokens / (totalDuration - TTFT) (generation phase)
  // Combined: total tokens / total duration
  // When TTFT is unavailable, prefill and generation phases cannot be separated,
  // so we set them to 0 and only report combined.
  const ttftSec = timeToFirstTokenMs !== undefined ? timeToFirstTokenMs / 1000 : undefined;
  const generationDurationSec = timeToFirstTokenMs !== undefined
    ? (totalDurationMs - timeToFirstTokenMs) / 1000
    : undefined;
  const prefillTokensPerSec = (ttftSec && ttftSec > 0) ? inputTokens / ttftSec : 0;
  const generationTokensPerSec = (generationDurationSec !== undefined && generationDurationSec > 0)
    ? outputTokens / generationDurationSec
    : 0;
  const combinedTokensPerSec = totalDurationSec > 0 ? totalTokens / totalDurationSec : 0;
  return {
    provider,
    model,
    turnCount: turnMetrics.length,
    inputTokens,
    outputTokens,
    totalTokens,
    prefillTokensPerSec,
    generationTokensPerSec,
    combinedTokensPerSec,
    totalDurationMs,
    timeToFirstTokenMs,
    turns: turnMetrics,
  };
 }
 /**
 * Format metrics for TUI display
 */
 export function formatMetricsForDisplay(metrics: PromptMetrics): string {
  const lines: string[] = [];
  // Header with provider/model
  lines.push(`📊 Performance: ${metrics.provider}/${metrics.model}`);
  if (metrics.turnCount === 0) {
    lines.push("  No turns recorded");
    return lines.join("\n");
  }
  // Format duration display
  const durationSec = metrics.totalDurationMs / 1000;
  const durationDisplay = durationSec >= 60
    ? `${(durationSec / 60).toFixed(1)}m`
    : `${durationSec.toFixed(1)}s`;
  // Prefill metrics (only when TTFT was available)
  if (metrics.prefillTokensPerSec > 0) {
    lines.push(
      `  Prefill: ${metrics.inputTokens.toLocaleString()} tokens @ ${metrics.prefillTokensPerSec.toFixed(1)} tok/s`
    );
  }
  // Generation metrics (only when TTFT was available)
  if (metrics.generationTokensPerSec > 0) {
    lines.push(
      `  Generation: ${metrics.outputTokens.toLocaleString()} tokens @ ${metrics.generationTokensPerSec.toFixed(1)} tok/s`
    );
  }
  // Combined metrics
  lines.push(
    `  Combined: ${metrics.totalTokens.toLocaleString()} tokens @ ${metrics.combinedTokensPerSec.toFixed(1)} tok/s (${durationDisplay} total)`
  );
  // Time to first token
  if (metrics.timeToFirstTokenMs !== undefined) {
    lines.push(`  TTFT: ${metrics.timeToFirstTokenMs.toFixed(0)}ms`);
  }
  // Turn count
  if (metrics.turnCount > 1) {
    lines.push(`  Turns: ${metrics.turnCount}`);
  }
  return lines.join("\n");
 }
 /**
 * Convert PromptMetrics to JSONL log entry
 */
 export function toLogEntry(metrics: PromptMetrics): MetricLogEntry {
  return {
    timestamp: new Date().toISOString(),
    provider: metrics.provider,
    model: metrics.model,
    turnCount: metrics.turnCount,
    inputTokens: metrics.inputTokens,
    outputTokens: metrics.outputTokens,
    totalTokens: metrics.totalTokens,
    prefillTokensPerSec: Math.round(metrics.prefillTokensPerSec * 100) / 100,
    generationTokensPerSec: Math.round(metrics.generationTokensPerSec * 100) / 100,
    combinedTokensPerSec: Math.round(metrics.combinedTokensPerSec * 100) / 100,
    totalDurationMs: metrics.totalDurationMs,
    timeToFirstTokenMs: metrics.timeToFirstTokenMs,
  };
 }
--- a/packages/pi-llm-performance/src/llm-performance-metrics.test.ts
+++ b/packages/pi-llm-performance/src/llm-performance-metrics.test.ts
@ -0,0 +1,398 @@
 import {
  calculateTurnMetrics,
  aggregatePromptMetrics,
  formatMetricsForDisplay,
  toLogEntry,
  type TurnMetrics,
  type PromptMetrics,
 } from "./llm-metrics-core.ts";
 import { assertEquals, assertGreaterOrEqual, assertLessOrEqual } from "jsr:@std/assert";
 Deno.test("calculateTurnMetrics - creates turn metrics object", () => {
  const result = calculateTurnMetrics({
    turnId: "turn-1",
    inputTokens: 100,
    outputTokens: 50,
    durationMs: 2000,
    timeToFirstTokenMs: 500,
  });
  assertEquals(result.turnId, "turn-1");
  assertEquals(result.inputTokens, 100);
  assertEquals(result.outputTokens, 50);
  assertEquals(result.durationMs, 2000);
  assertEquals(result.timeToFirstTokenMs, 500);
 });
 Deno.test("calculateTurnMetrics - handles missing timeToFirstToken", () => {
  const result = calculateTurnMetrics({
    turnId: "turn-1",
    inputTokens: 100,
    outputTokens: 50,
    durationMs: 2000,
  });
  assertEquals(result.timeToFirstTokenMs, undefined);
 });
 Deno.test("aggregatePromptMetrics - aggregates single turn", () => {
  const turnMetrics: TurnMetrics[] = [
    {
      turnId: "turn-1",
      inputTokens: 1000,
      outputTokens: 200,
      durationMs: 5000,
      timeToFirstTokenMs: 800,
    },
  ];
  const result = aggregatePromptMetrics({
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnMetrics,
  });
  assertEquals(result.provider, "anthropic");
  assertEquals(result.model, "claude-sonnet-4");
  assertEquals(result.turnCount, 1);
  assertEquals(result.inputTokens, 1000);
  assertEquals(result.outputTokens, 200);
  assertEquals(result.totalTokens, 1200);
  assertEquals(result.totalDurationMs, 5000);
  assertEquals(result.timeToFirstTokenMs, 800);
  // Tokens per second calculations
  // prefill: 1000 input tokens / 0.8s TTFT = 1250 tok/s
  assertEquals(result.prefillTokensPerSec, 1250);
  // generation: 200 output tokens / 4.2s (5s - 0.8s) = 47.62 tok/s
  assertGreaterOrEqual(result.generationTokensPerSec, 47.6);
  assertLessOrEqual(result.generationTokensPerSec, 47.7);
  // combined: 1200 total tokens / 5s = 240 tok/s
  assertEquals(result.combinedTokensPerSec, 240);
 });
 Deno.test("aggregatePromptMetrics - aggregates multiple turns", () => {
  const turnMetrics: TurnMetrics[] = [
    {
      turnId: "turn-1",
      inputTokens: 1000,
      outputTokens: 200,
      durationMs: 3000,
      timeToFirstTokenMs: 800,
    },
    {
      turnId: "turn-2",
      inputTokens: 500,
      outputTokens: 150,
      durationMs: 2000,
    },
    {
      turnId: "turn-3",
      inputTokens: 300,
      outputTokens: 100,
      durationMs: 1500,
    },
  ];
  const result = aggregatePromptMetrics({
    provider: "openai",
    model: "gpt-4o",
    turnMetrics,
  });
  assertEquals(result.turnCount, 3);
  assertEquals(result.inputTokens, 1800); // 1000 + 500 + 300
  assertEquals(result.outputTokens, 450); // 200 + 150 + 100
  assertEquals(result.totalTokens, 2250);
  assertEquals(result.totalDurationMs, 6500); // 3000 + 2000 + 1500
  assertEquals(result.timeToFirstTokenMs, 800); // From first turn only
  // Tokens per second: prefill uses TTFT (0.8s), generation uses (total - TTFT) = 5.7s
  // prefill: 1800 / 0.8 = 2250 tok/s
  assertEquals(result.prefillTokensPerSec, 2250);
  // generation: 450 / 5.7 = 78.95 tok/s
  assertGreaterOrEqual(result.generationTokensPerSec, 78.9);
  assertLessOrEqual(result.generationTokensPerSec, 79.0);
  // combined: 2250 / 6.5 = 346.15 tok/s
  assertGreaterOrEqual(result.combinedTokensPerSec, 346.1);
  assertLessOrEqual(result.combinedTokensPerSec, 346.2);
 });
 Deno.test("aggregatePromptMetrics - handles empty turn list", () => {
  const result = aggregatePromptMetrics({
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnMetrics: [],
  });
  assertEquals(result.turnCount, 0);
  assertEquals(result.inputTokens, 0);
  assertEquals(result.outputTokens, 0);
  assertEquals(result.totalTokens, 0);
  assertEquals(result.prefillTokensPerSec, 0);
  assertEquals(result.generationTokensPerSec, 0);
  assertEquals(result.combinedTokensPerSec, 0);
  assertEquals(result.totalDurationMs, 0);
  assertEquals(result.timeToFirstTokenMs, undefined);
 });
 Deno.test("formatMetricsForDisplay - formats single turn metrics", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 1,
    inputTokens: 1250,
    outputTokens: 342,
    totalTokens: 1592,
    prefillTokensPerSec: 482.1,
    generationTokensPerSec: 18.3,
    combinedTokensPerSec: 38.0,
    totalDurationMs: 21600,
    timeToFirstTokenMs: 850,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("anthropic/claude-sonnet-4"), true);
  assertEquals(display.includes("1,250 tokens"), true);
  assertEquals(display.includes("482.1 tok/s"), true);
  assertEquals(display.includes("342 tokens"), true);
  assertEquals(display.includes("18.3 tok/s"), true);
  assertEquals(display.includes("1,592 tokens"), true);
  assertEquals(display.includes("38.0 tok/s"), true);
  assertEquals(display.includes("21.6s"), true);
  assertEquals(display.includes("TTFT: 850ms"), true);
 });
 Deno.test("formatMetricsForDisplay - formats duration as minutes when over 60s", () => {
  const metrics: PromptMetrics = {
    provider: "openai",
    model: "gpt-4o",
    turnCount: 1,
    inputTokens: 5000,
    outputTokens: 1000,
    totalTokens: 6000,
    prefillTokensPerSec: 50,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 60,
    totalDurationMs: 120000, // 2 minutes
    timeToFirstTokenMs: 1500,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("2.0m"), true);
 });
 Deno.test("formatMetricsForDisplay - omits turn count when single turn", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 1,
    inputTokens: 100,
    outputTokens: 50,
    totalTokens: 150,
    prefillTokensPerSec: 20,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 30,
    totalDurationMs: 5000,
    timeToFirstTokenMs: 500,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("Turns: 1"), false);
 });
 Deno.test("formatMetricsForDisplay - omits prefill/generation when TTFT is unavailable", () => {
  const metrics: PromptMetrics = {
    provider: "openai",
    model: "gpt-4o",
    turnCount: 1,
    inputTokens: 1000,
    outputTokens: 200,
    totalTokens: 1200,
    prefillTokensPerSec: 0,
    generationTokensPerSec: 0,
    combinedTokensPerSec: 240,
    totalDurationMs: 5000,
    timeToFirstTokenMs: undefined,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("Prefill:"), false);
  assertEquals(display.includes("Generation:"), false);
  assertEquals(display.includes("1,200 tokens"), true);
  assertEquals(display.includes("240.0 tok/s"), true);
 });
 Deno.test("formatMetricsForDisplay - shows turn count when multiple turns", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 3,
    inputTokens: 100,
    outputTokens: 50,
    totalTokens: 150,
    prefillTokensPerSec: 20,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 30,
    totalDurationMs: 5000,
    timeToFirstTokenMs: 500,
    turns: [],
  };
  const display = formatMetricsForDisplay(metrics);
  assertEquals(display.includes("Turns: 3"), true);
 });
 Deno.test("toLogEntry - creates JSON-serializable log entry", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 2,
    inputTokens: 1250,
    outputTokens: 342,
    totalTokens: 1592,
    prefillTokensPerSec: 482.12345,
    generationTokensPerSec: 18.34567,
    combinedTokensPerSec: 38.09876,
    totalDurationMs: 21600,
    timeToFirstTokenMs: 850,
    turns: [],
  };
  const logEntry = toLogEntry(metrics);
  assertEquals(logEntry.provider, "anthropic");
  assertEquals(logEntry.model, "claude-sonnet-4");
  assertEquals(logEntry.turnCount, 2);
  assertEquals(logEntry.inputTokens, 1250);
  assertEquals(logEntry.outputTokens, 342);
  assertEquals(logEntry.totalTokens, 1592);
  // Rounded to 2 decimal places
  assertEquals(logEntry.prefillTokensPerSec, 482.12);
  assertEquals(logEntry.generationTokensPerSec, 18.35);
  assertEquals(logEntry.combinedTokensPerSec, 38.1);
  assertEquals(logEntry.totalDurationMs, 21600);
  assertEquals(logEntry.timeToFirstTokenMs, 850);
  // Should have ISO timestamp
  assertEquals(logEntry.timestamp.includes("T"), true);
  assertEquals(logEntry.timestamp.includes("Z"), true);
  // Should be JSON serializable
  const json = JSON.stringify(logEntry);
  assertEquals(json.length > 0, true);
  const parsed = JSON.parse(json);
  assertEquals(parsed.provider, "anthropic");
 });
 Deno.test("aggregatePromptMetrics - uses full duration when TTFT is undefined", () => {
  const turnMetrics: TurnMetrics[] = [
    {
      turnId: "turn-1",
      inputTokens: 1000,
      outputTokens: 200,
      durationMs: 5000,
      // No timeToFirstTokenMs
    },
  ];
  const result = aggregatePromptMetrics({
    provider: "openai",
    model: "gpt-4o",
    turnMetrics,
  });
  assertEquals(result.turnCount, 1);
  assertEquals(result.inputTokens, 1000);
  assertEquals(result.outputTokens, 200);
  // Without TTFT, prefill and generation rates are 0 (cannot separate phases)
  // Only combined rate is meaningful
  assertEquals(result.prefillTokensPerSec, 0);
  assertEquals(result.generationTokensPerSec, 0);
  assertEquals(result.combinedTokensPerSec, 240);
 });
 Deno.test("toLogEntry - handles missing timeToFirstToken", () => {
  const metrics: PromptMetrics = {
    provider: "anthropic",
    model: "claude-sonnet-4",
    turnCount: 1,
    inputTokens: 100,
    outputTokens: 50,
    totalTokens: 150,
    prefillTokensPerSec: 20,
    generationTokensPerSec: 10,
    combinedTokensPerSec: 30,
    totalDurationMs: 5000,
    timeToFirstTokenMs: undefined,
    turns: [],
  };
  const logEntry = toLogEntry(metrics);
  assertEquals(logEntry.timeToFirstTokenMs, undefined);
 });
 Deno.test("Integration - full flow from turns to log entry", () => {
  // Simulate a real scenario with multiple turns
  const turn1 = calculateTurnMetrics({
    turnId: "turn-1",
    inputTokens: 2000,
    outputTokens: 500,
    durationMs: 8000,
    timeToFirstTokenMs: 1200,
  });
  const turn2 = calculateTurnMetrics({
    turnId: "turn-2",
    inputTokens: 800,
    outputTokens: 200,
    durationMs: 3000,
  });
  const promptMetrics = aggregatePromptMetrics({
    provider: "groq",
    model: "llama-3.1-70b",
    turnMetrics: [turn1, turn2],
  });
  const display = formatMetricsForDisplay(promptMetrics);
  const logEntry = toLogEntry(promptMetrics);
  // Verify aggregation
  assertEquals(promptMetrics.turnCount, 2);
  assertEquals(promptMetrics.inputTokens, 2800);
  assertEquals(promptMetrics.outputTokens, 700);
  assertEquals(promptMetrics.totalTokens, 3500);
  assertEquals(promptMetrics.totalDurationMs, 11000);
  assertEquals(promptMetrics.timeToFirstTokenMs, 1200);
  // Verify corrected rate calculations
  // prefill: 2800 / 1.2 = 2333.33 tok/s
  assertGreaterOrEqual(promptMetrics.prefillTokensPerSec, 2333.3);
  assertLessOrEqual(promptMetrics.prefillTokensPerSec, 2333.4);
  // generation: 700 / 9.8 = 71.43 tok/s
  assertGreaterOrEqual(promptMetrics.generationTokensPerSec, 71.4);
  assertLessOrEqual(promptMetrics.generationTokensPerSec, 71.5);
  // combined: 3500 / 11 = 318.18 tok/s
  assertGreaterOrEqual(promptMetrics.combinedTokensPerSec, 318.1);
  assertLessOrEqual(promptMetrics.combinedTokensPerSec, 318.2);
  // Verify display contains key info
  assertEquals(display.includes("groq/llama-3.1-70b"), true);
  assertEquals(display.includes("TTFT: 1200ms"), true);
  // Verify log entry
  assertEquals(logEntry.provider, "groq");
  assertEquals(logEntry.model, "llama-3.1-70b");
  assertEquals(logEntry.turnCount, 2);
 });
--- a/packages/pi-llm-performance/src/llm-performance-metrics.ts
+++ b/packages/pi-llm-performance/src/llm-performance-metrics.ts
@ -0,0 +1,100 @@
 // LLM Performance Metrics Extension
 // Captures and displays LLM inference performance metrics
 import type { ExtensionAPI } from "@mariozechner/pi-coding-agent";
 import { appendFileSync, mkdirSync } from "node:fs";
 import { dirname, join } from "node:path";
 // Re-export core functions from the shared metrics module
 import {
  calculateTurnMetrics,
  aggregatePromptMetrics,
  formatMetricsForDisplay,
  toLogEntry,
  type TurnMetrics,
  type PromptMetrics,
  type MetricLogEntry,
 } from "./llm-metrics-core.ts";
 // ============================================================================
 // Extension Event Handlers (imperative shell)
 // ============================================================================
 // State tracking
 let promptStartMs: number | undefined;
 let currentTurnStartMs: number | undefined;
 let currentTurnId: string | undefined;
 let turnMetrics: TurnMetrics[] = [];
 let firstTokenTimeMs: number | undefined;
 let provider: string | undefined;
 let model: string | undefined;
 export default function (pi: ExtensionAPI) {
  const logFile = join(process.cwd(), ".pi", "llm-metrics.log");
  pi.on("agent_start", async (_event, ctx) => {
    if (!ctx.model) return;
    promptStartMs = Date.now();
    turnMetrics = [];
    firstTokenTimeMs = undefined;
    provider = ctx.model.provider;
    model = ctx.model.id;
  });
  pi.on("turn_start", async (event, _ctx) => {
    currentTurnStartMs = Date.now();
    currentTurnId = `turn-${event.turnIndex}`;
  });
  pi.on("message_update", async (event, _ctx) => {
    // Capture TTFT on first token
    if (firstTokenTimeMs === undefined && event.assistantMessageEvent?.type === "text_delta") {
      firstTokenTimeMs = Date.now();
    }
  });
  pi.on("turn_end", async (event, _ctx) => {
    if (event.message.role !== "assistant") return;
    const inputTokens = event.message.usage?.input ?? 0;
    const outputTokens = event.message.usage?.output ?? 0;
    const durationMs = currentTurnStartMs ? Date.now() - currentTurnStartMs : 0;
    const ttftMs = currentTurnId === `turn-${event.turnIndex}` && firstTokenTimeMs && currentTurnStartMs
      ? firstTokenTimeMs - currentTurnStartMs
      : undefined;
    const turnMetric = calculateTurnMetrics({
      turnId: currentTurnId!,
      inputTokens,
      outputTokens,
      durationMs,
      timeToFirstTokenMs: ttftMs,
    });
    turnMetrics.push(turnMetric);
  });
  pi.on("agent_end", async (_event, ctx) => {
    if (!provider || !model || promptStartMs === undefined) return;
    const promptMetrics = aggregatePromptMetrics({
      provider,
      model,
      turnMetrics,
    });
    // Display in TUI
    const display = formatMetricsForDisplay(promptMetrics);
    ctx.ui.notify(display, "info");
    ctx.ui.setStatus("metrics", `📊 ${promptMetrics.combinedTokensPerSec.toFixed(1)} tok/s`);
    // Log to JSONL file
    const logEntry = toLogEntry(promptMetrics);
    mkdirSync(dirname(logFile), { recursive: true });
    appendFileSync(logFile, JSON.stringify(logEntry) + "\n", "utf8");
    // Reset state
    promptStartMs = undefined;
    turnMetrics = [];
    firstTokenTimeMs = undefined;
  });
 }