Локальный Inference (без API!)

Маленькие модели — 1-3 сек CPU. Большие думают ооочень долго. Нет limits/token. В качестве примера.