Ollama выпустила v0.30.8. В релизе исправили выбор провайдера в ollama launch, улучшили prompt caching и сделали MLX inference стабильнее. Это не яркая продуктовая новость, но такие релизы часто решают, можно ли жить с локальной моделью каждый день.
Что произошло
Релиз не выглядит громким, но он про рабочую надежность локального AI-стека: кеширование промптов, запуск модели, snapshots и поддержку recurrent models.
Почему важно
Если команда запускает модели локально, ценность не в названии релиза. Ценность в том, что внутренний инструмент меньше падает, быстрее отвечает на длинных промптах и требует меньше ручного дебага.
Кому полезно
- тем, кто использует Ollama локально;
- разработчикам внутренних AI-инструментов;
- командам, которые тестируют Qwen, Gemma, DeepSeek и другие модели на своем железе.
Что сделать перед обновлением
- прогони 5-10 своих типовых промптов до и после обновления;
- прогони модели, которые уже стоят в рабочих задачах;
- отдельно посмотри длинные диалоги и массовую обработку;
- обновляй продовый контур только после короткого локального сравнения.
Первоисточник
GitHub: ollama/ollama v0.30.8.