Termux, Ollama и Gemma 4 на телефоне: гайд «без облака и без API-ключей»

На Dev.to есть короткая карточка с встроенным пошаговым материалом: как через Termux на Android (без root) поднять Ollama и семейство Gemma 4 с минимальным уходом в облако. Это по сути эксперимент с локальным AI-стеком в терминале — отдельный рантайм для генерации текста там, где чаще ждут веб-панель или API-ключ провайдера. Встроенный гайд задаёт темп ориентиром порядка семи токенов в секунду на телефоне как уже «принимаемый» масштаб скорости.
Gemma 4 со стороны Google в этом материале привязана к 6 мая 2026 года. Текст построен вокруг пары осей «что сработало / что ломается» и уводит читателя от сухого списка команд к ограничениям по железу и времени генерации на конкретных объёмах RAM.
Зачем гнать LLM на смартфоне без облака и платёжных ключей
Мотивация у авторов жёсткая: модель ИИ на телефоне, без облака и без API-ключей, а после первоначальной загрузки — без интернета, без поштучной оплаты за токены и без ухода данных с устройства. Если привыкли к IDE, промптам и локальному inference, сценарий можно воспринимать как полевой тест: почти полностью мобильный AI-стек на Linux-окружении внутри Android.
Как раскладывается Gemma 4 и какой вариант берут под телефон
Gemma 4 описана как семейство из четырёх вариантов; для телефона выделены E2B (2.3 миллиарда эффективных параметров, окно контекста 128K) и E4B (4.5 миллиарда, тоже 128K). Пошаговый сценарий крутится вокруг E2B; при 12 ГБ RAM и больше предлагают попробовать E4B. Это стыкуется с акцентом карточки на «2.3B parameters»: E2B выступает «лёгкой» конфигурацией под мобильное железо.
Termux, F-Droid и путь к Ollama через community-сборку
Termux фигурирует как терминал и Linux-окружение на Android без root. Установку связывают с F-Droid и отделяют от Play Store, который там же назван устаревшим источником пакета. Дальше следуют блоки команд вроде pkg update && pkg upgrade и pkg install python git cmake gcc.
Ollama сопоставляют с официальной поддержкой Linux и macOS, а для Termux дают community-maintained вариант: клон https://github.com/ollama/ollama.git, каталог ollama и инструкции для Termux из README репозитория. Сборка на телефоне может занять заметное время.
Pull, run и жизнь модели после первой загрузки
Основная связка команд — ollama pull gemma4:2b (в гайде это относят к E2B) и ollama run gemma4:2b. Подчёркивают большой объём загрузки и советуют не гонять её по мобильным данным, а заранее подключиться к Wi‑Fi. После успешной загрузки снова звучит акцент: без облака, без API-ключей и без раздельной оплаты за токены данные остаются на устройстве.
Локальный API для агентов и сценарии «рядом в той же сети»
Ollama связывают с локальным API на порту 11434; другие устройства в одной Wi‑Fi-сети могут обращаться к IP телефона по этому порту. На таком эндпоинте укладываются вспомогательные сценарии — от простого скрипта до связки с инструментами вроде MCP: по сути компактный локальный «хаб» для AI без внешнего биллинга.
Где сценарий трещит по швам: тепло, память Android и скорость токенов
После порядка двадцати минут непрерывной генерации телефон сильнее греется, ответы замедляются. Для режима, который в гайде описан как «production», советуют батчить запросы и давать устройству паузы. У Android названо «агрессивное» управление памятью: если надолго уйти из Termux, ОС может завершить процесс Ollama. В качестве единичного наблюдения приводится, что некий разработчик сообщил будто модель «пережила ночь» при зарядке и удержании Termux на переднем плане — без независимой проверки вне того же рассказа.
По железу в том же материале указаны около 7–8 токенов в секунду на Oppo Find N5 с 16 ГБ RAM и диапазон 3–5 токенов в секунду для сборок с 4 или 6 ГБ; такой режим назван не подходящим для сценариев реального времени.
В финале упомянут собственный проект Dexter Nova на Gemma 4 E2B на выделенном Android и пересказ про John Fiewor, GradrAI и локальный перевод части сценария на Gemma 4 E4B на ноутбуке учителя — эти связки живут только внутри того же материала и здесь приведены как иллюстрации идей над локальной моделью, а не как отдельно подтверждённые кейсы.
Источники
-
Карточка на dev.to (встраивает гайд). URL: Dev.to — дата доступа: 2026-05-12T21:02:48Z (UTC).
-
Встроенный гайд («I Ran an AI Model on My Phone…»). URL: https://dev.to/okeke_chukwudubem_5f3bf49/i-ran-an-ai-model-on-my-phone-no-cloud-no-api-keys-just-gemma-4-and-termux-3okl — в API указано время публикации 2026-05-12T19:16:04Z — дата доступа к материалу для этого текста: 2026-05-12T21:02:48Z (UTC).