Base usage tracker

2026-01-02 17:22:58 +01:00 · 2025-11-01 16:22:40 +01:00 · 2025-11-01 16:22:40 +01:00 · 07852f9ee7
commit 07852f9ee7
parent bcb470db9b
4 changed files with 480 additions and 0 deletions
--- a/AGENTS.md
+++ b/AGENTS.md
@ -0,0 +1,5 @@
 # Agent Guidance
 - Assume Python 3.10+ features are available; avoid `from __future__ import annotations` unless necessary.
 - Treat LLM model identifiers as `<provider>/<model_name>` strings throughout the codebase.
 - Prefer straightforward control flow (`if`/`else`) instead of nested ternaries when clarity is improved.
--- a/src/memory/common/llms/init.py
+++ b/src/memory/common/llms/init.py
@ -24,6 +24,13 @@ from memory.common.llms.base import (
 )
 from memory.common.llms.anthropic_provider import AnthropicProvider
 from memory.common.llms.openai_provider import OpenAIProvider
 from memory.common.llms.usage_tracker import (
    InMemoryUsageTracker,
    RateLimitConfig,
    TokenAllowance,
    UsageBreakdown,
    UsageTracker,
 )
 from memory.common import tokens
 __all__ = [
@ -42,6 +49,11 @@ __all__ = [
    "StreamEvent",
    "LLMSettings",
    "create_provider",
    "InMemoryUsageTracker",
    "RateLimitConfig",
    "TokenAllowance",
    "UsageBreakdown",
    "UsageTracker",
 ]
 logger = logging.getLogger(__name__)
--- a/src/memory/common/llms/usage_tracker.py
+++ b/src/memory/common/llms/usage_tracker.py
@ -0,0 +1,316 @@
 """LLM usage tracking utilities."""
 from collections import defaultdict, deque
 from collections.abc import Iterable
 from dataclasses import dataclass, field
 from datetime import datetime, timedelta, timezone
 from threading import Lock
@dataclass(frozen=True)
 class RateLimitConfig:
    """Configuration for a single rolling usage window."""
    window: timedelta
    max_input_tokens: int | None = None
    max_output_tokens: int | None = None
    max_total_tokens: int | None = None
    def __post_init__(self) -> None:
        if self.window <= timedelta(0):
            raise ValueError("window must be positive")
        if (
            self.max_input_tokens is None
            and self.max_output_tokens is None
            and self.max_total_tokens is None
        ):
            raise ValueError(
                "At least one of max_input_tokens, max_output_tokens or "
                "max_total_tokens must be provided"
            )
@dataclass
 class UsageEvent:
    timestamp: datetime
    input_tokens: int
    output_tokens: int
@dataclass
 class UsageState:
    events: deque[UsageEvent] = field(default_factory=deque)
    window_input_tokens: int = 0
    window_output_tokens: int = 0
    lifetime_input_tokens: int = 0
    lifetime_output_tokens: int = 0
@dataclass
 class TokenAllowance:
    """Represents the tokens that can be consumed right now."""
    input_tokens: int | None
    output_tokens: int | None
    total_tokens: int | None
@dataclass
 class UsageBreakdown:
    """Detailed usage statistics for a provider/model pair."""
    window_input_tokens: int
    window_output_tokens: int
    window_total_tokens: int
    lifetime_input_tokens: int
    lifetime_output_tokens: int
    @property
    def window_total(self) -> int:
        return self.window_total_tokens
    @property
    def lifetime_total_tokens(self) -> int:
        return self.lifetime_input_tokens + self.lifetime_output_tokens
 def split_model_key(model: str) -> tuple[str, str]:
    if "/" not in model:
        raise ValueError(
            "model must be formatted as '<provider>/<model_name>'"
        )
    provider, model_name = model.split("/", maxsplit=1)
    if not provider or not model_name:
        raise ValueError(
            "model must include both provider and model name separated by '/'"
        )
    return provider, model_name
 class UsageTracker:
    """Base class for usage trackers that operate on provider/model keys."""
    def __init__(
        self,
        configs: dict[str, RateLimitConfig],
        default_config: RateLimitConfig | None = None,
    ) -> None:
        self._configs = configs
        self._default_config = default_config
        self._lock = Lock()
    # ------------------------------------------------------------------
    # Storage hooks
    # ------------------------------------------------------------------
    def get_state(self, key: str) -> UsageState:
        raise NotImplementedError
    def iter_state_items(self) -> Iterable[tuple[str, UsageState]]:
        raise NotImplementedError
    def save_state(self, key: str, state: UsageState) -> None:
        """Persist the given state back to the underlying store."""
        del key, state
    # ------------------------------------------------------------------
    # Public API
    # ------------------------------------------------------------------
    def record_usage(
        self,
        model: str,
        input_tokens: int,
        output_tokens: int,
        timestamp: datetime | None = None,
    ) -> None:
        """Record token usage for the given provider/model pair."""
        if input_tokens < 0 or output_tokens < 0:
            raise ValueError("Token counts must be non-negative")
        timestamp = timestamp or datetime.now(timezone.utc)
        split_model_key(model)
        key = model
        with self._lock:
            config = self._get_config(key)
            state = self.get_state(key)
            state.lifetime_input_tokens += input_tokens
            state.lifetime_output_tokens += output_tokens
            if config is None:
                self.save_state(key, state)
                return
            state.events.append(UsageEvent(timestamp, input_tokens, output_tokens))
            state.window_input_tokens += input_tokens
            state.window_output_tokens += output_tokens
            self._prune_expired_events(state, config, now=timestamp)
            self.save_state(key, state)
    def is_rate_limited(
        self,
        model: str,
        timestamp: datetime | None = None,
    ) -> bool:
        """Return True if the pair currently exceeds its limits."""
        allowance = self.get_available_tokens(model, timestamp=timestamp)
        if allowance is None:
            return False
        limits = [
            allowance.input_tokens,
            allowance.output_tokens,
            allowance.total_tokens,
        ]
        return any(limit is not None and limit <= 0 for limit in limits)
    def get_available_tokens(
        self,
        model: str,
        timestamp: datetime | None = None,
    ) -> TokenAllowance | None:
        """Return the current token allowance for the provider/model pair.
        If there is no configuration for the pair (or a default configuration),
        ``None`` is returned to indicate that no limits are enforced.
        """
        split_model_key(model)
        key = model
        with self._lock:
            config = self._get_config(key)
            if config is None:
                return None
            state = self.get_state(key)
            self._prune_expired_events(state, config, now=timestamp)
            self.save_state(key, state)
            if config.max_total_tokens is None:
                total_remaining = None
            else:
                total_remaining = config.max_total_tokens - (
                    state.window_input_tokens + state.window_output_tokens
                )
            if config.max_input_tokens is None:
                input_remaining = None
            else:
                input_remaining = config.max_input_tokens - state.window_input_tokens
            if config.max_output_tokens is None:
                output_remaining = None
            else:
                output_remaining = (
                    config.max_output_tokens - state.window_output_tokens
                )
            return TokenAllowance(
                input_tokens=clamp_non_negative(input_remaining),
                output_tokens=clamp_non_negative(output_remaining),
                total_tokens=clamp_non_negative(total_remaining),
            )
    def get_usage_breakdown(
        self, provider: str | None = None, model: str | None = None
    ) -> dict[str, dict[str, UsageBreakdown]]:
        """Return usage statistics grouped by provider and model."""
        with self._lock:
            providers: dict[str, dict[str, UsageBreakdown]] = defaultdict(dict)
            for key, state in self.iter_state_items():
                prov, model_name = split_model_key(key)
                if provider and provider != prov:
                    continue
                if model and model != model_name:
                    continue
                window_total = state.window_input_tokens + state.window_output_tokens
                breakdown = UsageBreakdown(
                    window_input_tokens=state.window_input_tokens,
                    window_output_tokens=state.window_output_tokens,
                    window_total_tokens=window_total,
                    lifetime_input_tokens=state.lifetime_input_tokens,
                    lifetime_output_tokens=state.lifetime_output_tokens,
                )
                providers[prov][model_name] = breakdown
            return providers
    def iter_provider_totals(self) -> Iterable[tuple[str, UsageBreakdown]]:
        """Yield aggregated totals for each provider across its models."""
        breakdowns = self.get_usage_breakdown()
        for provider, models in breakdowns.items():
            window_input = sum(b.window_input_tokens for b in models.values())
            window_output = sum(b.window_output_tokens for b in models.values())
            lifetime_input = sum(b.lifetime_input_tokens for b in models.values())
            lifetime_output = sum(b.lifetime_output_tokens for b in models.values())
            yield (
                provider,
                UsageBreakdown(
                    window_input_tokens=window_input,
                    window_output_tokens=window_output,
                    window_total_tokens=window_input + window_output,
                    lifetime_input_tokens=lifetime_input,
                    lifetime_output_tokens=lifetime_output,
                ),
            )
    # ------------------------------------------------------------------
    # Internal helpers
    # ------------------------------------------------------------------
    def _get_config(self, key: str) -> RateLimitConfig | None:
        return self._configs.get(key) or self._default_config
    def _prune_expired_events(
        self,
        state: UsageState,
        config: RateLimitConfig,
        now: datetime | None = None,
    ) -> None:
        if not state.events:
            return
        now = now or datetime.now(timezone.utc)
        cutoff = now - config.window
        for event in tuple(state.events):
            if event.timestamp > cutoff:
                break
            state.events.popleft()
            state.window_input_tokens -= event.input_tokens
            state.window_output_tokens -= event.output_tokens
        state.window_input_tokens = max(state.window_input_tokens, 0)
        state.window_output_tokens = max(state.window_output_tokens, 0)
 class InMemoryUsageTracker(UsageTracker):
    """Tracks LLM usage for providers and models within a rolling window."""
    def __init__(
        self,
        configs: dict[str, RateLimitConfig],
        default_config: RateLimitConfig | None = None,
    ) -> None:
        super().__init__(configs=configs, default_config=default_config)
        self._states: dict[str, UsageState] = {}
    def get_state(self, key: str) -> UsageState:
        return self._states.setdefault(key, UsageState())
    def iter_state_items(self) -> Iterable[tuple[str, UsageState]]:
        return tuple(self._states.items())
 def clamp_non_negative(value: int | None) -> int | None:
    if value is None:
        return None
    return 0 if value < 0 else value
--- a/tests/memory/common/llms/test_usage_tracker.py
+++ b/tests/memory/common/llms/test_usage_tracker.py
@ -0,0 +1,147 @@
 from datetime import datetime, timedelta, timezone
 import pytest
 from memory.common.llms.usage_tracker import (
    InMemoryUsageTracker,
    RateLimitConfig,
    UsageTracker,
 )
@pytest.fixture
 def tracker() -> InMemoryUsageTracker:
    config = RateLimitConfig(
        window=timedelta(minutes=1),
        max_input_tokens=1_000,
        max_output_tokens=2_000,
        max_total_tokens=2_500,
    )
    return InMemoryUsageTracker(
        {
            "anthropic/claude-3": config,
            "anthropic/haiku": config,
        }
    )
@pytest.mark.parametrize(
    "window, kwargs",
    [
        (timedelta(minutes=1), {}),
        (timedelta(seconds=0), {"max_total_tokens": 1}),
    ],
 )
 def test_rate_limit_config_validation(window: timedelta, kwargs: dict[str, int]) -> None:
    with pytest.raises(ValueError):
        RateLimitConfig(window=window, **kwargs)
 def test_allows_usage_within_limits(tracker: InMemoryUsageTracker) -> None:
    now = datetime(2024, 1, 1, tzinfo=timezone.utc)
    tracker.record_usage("anthropic/claude-3", 100, 200, timestamp=now)
    allowance = tracker.get_available_tokens(
        "anthropic/claude-3", timestamp=now
    )
    assert allowance is not None
    assert allowance.input_tokens == 900
    assert allowance.output_tokens == 1_800
    assert allowance.total_tokens == 2_200
 def test_rate_limited_when_over_budget(tracker: InMemoryUsageTracker) -> None:
    now = datetime(2024, 1, 1, tzinfo=timezone.utc)
    tracker.record_usage("anthropic/claude-3", 800, 1_700, timestamp=now)
    assert tracker.is_rate_limited("anthropic/claude-3", timestamp=now)
 def test_recovers_after_window(tracker: InMemoryUsageTracker) -> None:
    now = datetime(2024, 1, 1, tzinfo=timezone.utc)
    tracker.record_usage("anthropic/claude-3", 800, 1_700, timestamp=now)
    later = now + timedelta(minutes=2)
    allowance = tracker.get_available_tokens(
        "anthropic/claude-3", timestamp=later
    )
    assert allowance is not None
    assert allowance.input_tokens == 1_000
    assert allowance.output_tokens == 2_000
    assert allowance.total_tokens == 2_500
    assert not tracker.is_rate_limited("anthropic/claude-3", timestamp=later)
 def test_usage_breakdown_and_provider_totals(tracker: InMemoryUsageTracker) -> None:
    now = datetime(2024, 1, 1, tzinfo=timezone.utc)
    tracker.record_usage("anthropic/claude-3", 100, 200, timestamp=now)
    tracker.record_usage("anthropic/haiku", 50, 75, timestamp=now)
    breakdown = tracker.get_usage_breakdown()
    assert "anthropic" in breakdown
    assert "claude-3" in breakdown["anthropic"]
    claude_usage = breakdown["anthropic"]["claude-3"]
    assert claude_usage.window_input_tokens == 100
    assert claude_usage.window_output_tokens == 200
    provider_totals = dict(tracker.iter_provider_totals())
    anthropic_totals = provider_totals["anthropic"]
    assert anthropic_totals.window_input_tokens == 150
    assert anthropic_totals.window_output_tokens == 275
 def test_get_usage_breakdown_filters(tracker: InMemoryUsageTracker) -> None:
    now = datetime(2024, 1, 1, tzinfo=timezone.utc)
    tracker.record_usage("anthropic/claude-3", 10, 20, timestamp=now)
    tracker.record_usage("openai/gpt-4o", 5, 5, timestamp=now)
    filtered = tracker.get_usage_breakdown(provider="anthropic")
    assert set(filtered.keys()) == {"anthropic"}
    assert set(filtered["anthropic"].keys()) == {"claude-3"}
    filtered_model = tracker.get_usage_breakdown(model="gpt-4o")
    assert set(filtered_model.keys()) == {"openai"}
    assert set(filtered_model["openai"].keys()) == {"gpt-4o"}
 def test_missing_configuration_records_lifetime_only() -> None:
    tracker = InMemoryUsageTracker(configs={})
    tracker.record_usage("openai/gpt-4o", 10, 20)
    assert tracker.get_available_tokens("openai/gpt-4o") is None
    breakdown = tracker.get_usage_breakdown()
    usage = breakdown["openai"]["gpt-4o"]
    assert usage.window_input_tokens == 0
    assert usage.lifetime_input_tokens == 10
 def test_default_configuration_is_used() -> None:
    default = RateLimitConfig(window=timedelta(minutes=1), max_total_tokens=100)
    tracker = InMemoryUsageTracker(configs={}, default_config=default)
    tracker.record_usage("anthropic/claude-3", 10, 10)
    allowance = tracker.get_available_tokens("anthropic/claude-3")
    assert allowance is not None
    assert allowance.total_tokens == 80
 def test_record_usage_rejects_negative_values(tracker: InMemoryUsageTracker) -> None:
    with pytest.raises(ValueError):
        tracker.record_usage("anthropic/claude-3", -1, 0)
 def test_is_rate_limited_when_only_output_exceeds_limit() -> None:
    config = RateLimitConfig(window=timedelta(minutes=1), max_output_tokens=50)
    tracker = InMemoryUsageTracker({"openai/gpt-4o": config})
    tracker.record_usage("openai/gpt-4o", 0, 50)
    assert tracker.is_rate_limited("openai/gpt-4o")
 def test_usage_tracker_base_not_instantiable() -> None:
    class DummyTracker(UsageTracker):
        pass
    with pytest.raises(NotImplementedError):
        DummyTracker({}).record_usage("provider/model", 1, 1)