Průvodce lokální AI
Ollama: lokální AI modely ve vašem terminálu
Jeden příkaz a běží vám AI model přímo u sebe: zdarma, offline a soukromě. Provedu vás od instalace po napojení do vlastních nástrojů.
Autor: Jindřich Fáborský · 17 let v marketingu · 2 000+ hodin vibe codingu · 180+ projektů
❯ ollama run gpt-oss:20b
pulling model… ✓ success
❯ Napiš pozvánku na snídani
Dobré ráno! Zveme vás na firemní snídani tento pátek od 9:00…
✓ spočítáno lokálně · 0 Kč · offline
Model běží na vašem počítači, ne v cloudu.
Rychlá odpověď
Co je tedy Ollama?
Ollama je program, který stáhne a spustí AI model přímo na vašem počítači. Ovládáte ji jedním příkazem a chatujete s modelem jako s ChatGPT, jen běží lokálně u vás.
Zadání nikam neodchází, neplatíte za tokeny a model běží i offline. Její hlavní síla je ale jinde: vystavuje rozhraní, na které napojíte vlastní aplikace a skripty. Je to jedna z cest z našeho průvodce lokální AI.
Čím je Ollama jiná:
Od nuly k prvnímu chatu
Rozjeďte první model v pěti příkazech
Tohle je ruční cesta pro každého, kdo chce Ollamu v terminálu. Od stažení modelu po první odpověď to máte za pár minut.
❯ ollama run gpt-oss:20b
verifying sha256… writing manifest
✓ success
>>> Napište zprávu (/bye ukončí)
Krok 2 z 5 · První model
ollama run gpt-oss:20bJeden příkaz model stáhne a rovnou spustí. Stahuje se jen poprvé (pár GB), pak ho máte trvale u sebe a běží offline.
Pět příkazů od nuly k prvnímu chatu. Klikejte krok po kroku, příkazy si rovnou kopírujte.
Který model stáhnout
Vyberte model podle své paměti
O tom, jak velký model rozjedete, rozhoduje paměť. Najděte svou RAM, zkopírujte příkaz a model si stáhnete jedním řádkem.
ollama run llama3.2Chat, shrnutí, klasifikace, vytažení údajů z textu. Na češtinu sáhněte po Qwenu nebo Gemmě.
Chat, shrnutí, klasifikace, vytažení údajů z textu. Na češtinu sáhněte po Qwenu nebo Gemmě.
ollama run qwen3:8bBezpečný start na běžném notebooku: slušná čeština i lehké kódování. Tady bych začínal.
Bezpečný start na běžném notebooku: slušná čeština i lehké kódování. Tady bych začínal.
ollama run gpt-oss:20bOpenAI ho dodává v úsporném formátu MXFP4, takže 20B model zabere jen ~13 GB. Na 16 GB se vejde, ale těsně, pohodlně jede od 24 GB.
OpenAI ho dodává v úsporném formátu MXFP4, takže 20B model zabere jen ~13 GB. Na 16 GB se vejde, ale těsně, pohodlně jede od 24 GB.
ollama run qwen3:32bZnatelně chytřejší odpovědi, a pořád v rozumné ceně stroje.
Znatelně chytřejší odpovědi, a pořád v rozumné ceně stroje.
Velké modely. Chtějí výkonný stroj, běh je pomalejší.
ollama run gpt-oss:120bMůj 100% privátní produkční model. Jede mi na Macu Studio s 256 GB sdílené paměti.
Můj 100% privátní produkční model. Jede mi na Macu Studio s 256 GB sdílené paměti.
Rozhoduje paměť pro grafiku (na Macu sdílená, na PC hlavně VRAM karty), modely stárnou rychle. Co přesně se vejde a jak rychle, spočítá konfigurátor na našem průvodci lokální AI. Detailní žebříček podle úloh a češtiny chystám jako samostatného průvodce.
Napojení do nástrojů
Nemusíte umět příkazy: řeknete to Claude Code
Tohle Ollamu odlišuje od klikacích appek. Když vibe codujete, lokální model do své appky nezapojujete ručně. Řeknete větou Claude Code, ať volání přesměruje na Ollamu, a on přepíše kód za vás.
❯ V téhle appce nahraď OpenAI lokální Ollamou, použij model gpt-oss:120b.
Hledám, kde appka volá OpenAI…
- base_url = "https://api.openai.com/v1"
+ base_url = "http://localhost:11434/v1"
- model = "gpt-4o"
+ model = "gpt-oss:120b"
✓ Hotovo. Appka teď počítá lokálně, do cloudu nejde nic.
Co jste reálně udělali
Appka volala placené OpenAI. Jedna věta a Claude Code přepíše volání na lokální Ollamu. Stejný kód, jen jiná adresa, kterou ale psát nemusíte.
Žádné příkazy jste psát nemuseli. Stačila věta. Pod kapotou je to jen výměna jedné adresy, kterou Claude Code napíše za vás.
Pod kapotou je to jen výměna jedné adresy: appka místo placeného cloudu volá lokální server Ollamy (rozhraní kompatibilní s OpenAI). Tu adresu ale psát nemusíte, napíše ji za vás Claude Code.
Z mé praxe
Na čem mi Ollama reálně jede
Lokální AI je nejsilnější na ohraničených úlohách, kde nepotřebujete ten nejvýkonnější mozek z cloudu. Tohle všechno běží u mě, lokálně a zdarma.
Citlivá data nikdy neopustí Mac
U citlivých složek Claude Code soubory ani neotevře: předá lokálnímu modelu jen cestu k nim. Ten u mě na disku projede zákaznické zprávy nebo smlouvy a vrátí jen výsledek. Běží na gpt-oss:120b přes Ollamu, do cloudu nejde ani řádek a stojí to 0 Kč.
Výběr z 900 přednášek
Před Tech Weekem v San Franciscu mi Claude Code postavil nástroj, který hromadně oskóroval přes 900 přednášek podle relevance. Přesně ten druh dávkové úlohy, který lokálním modelem rozjedete zdarma a bez API limitů.
Jak jsem si vybral z 900 přednášek →Výpisky ke stovkám přednášek
Pro Digisemestr nejdřív lokálně přepíšu stovky nahraných přednášek (Whisperem), pak z přepisů lokální model udělá vyhledávatelné výpisky. Studenti v nich pak hledají a učí se z nich. Všechno běží u mě, zdarma a bez limitů.
Informační systém Digisemestru →Na co si dát pozor
Kde má lokální AI své hranice
Lokální AI má jasné limity. Vyplatí se je znát dřív, než sáhnete po novém počítači.
Claude Code na lokálním modelu? Zatím jen teoreticky
Ollama dnes umí mluvit i rozhraním Anthropicu, takže Claude Code jde přesměrovat na lokální model místo Opusu. Prakticky to ale zatím nedoporučuju. Na vážné programování lokální modely nedosahují kvalit cloudových modelů, a ten, který by se jim blížil, by chtěl stovky gigabajtů až kolem terabajtu paměti pro grafiku. To je datacentrum, ne notebook.
Paměť je strop
Co rozjedete, určuje paměť pro grafiku. Na 8 GB poběží jen malé modely, opravdu chytré modely chtějí výkonný (a dražší) stroj. Velké modely navíc běží pomaleji a první odpověď po startu chvíli trvá, než se model načte do paměti.
Lokální AI je doplněk, ne náhrada
Na náročné programování a velké kontexty nechte frontier model v cloudu. Lokální model nasaďte tam, kde válí: přepis, hromadné dávky, citlivá data a ohraničené úlohy uvnitř vašich appek. Kde leží hranice mezi lokální AI a cloudem, rozebírá náš průvodce lokální AI.
Chcete s AI tvořit, ne jen číst návody?
Ollama je jeden dílek skládačky. V kurzu AI First vás naučím vibe coding od základu: vlastní nástroje, weby i automatizace, a jak do nich zapojit i lokální modely.
21 hodin videí, 1 800+ absolventů, roční licence s aktualizacemi zdarma.
FAQ
Časté otázky
Co je Ollama a k čemu slouží?+
Ollama je program, který stáhne a spustí jazykový AI model přímo na vašem počítači. Ovládáte ho jedním příkazem v terminálu (ollama run …) a chatujete s modelem jako s ChatGPT, jen běží lokálně u vás. Hlavní výhoda je, že vystavuje rozhraní, na které napojíte vlastní aplikace a skripty.
Je Ollama zdarma?+
Ano. Ollama i modely, které přes ni stáhnete (gpt-oss, Qwen, Gemma, Llama), jsou zdarma. Neplatíte za žádné tokeny ani předplatné, jen za elektřinu a hardware, který už máte. U hromadných úloh se to oproti placenému cloudu rychle vyplatí.
Kolik RAM potřebuju? Běží Ollama bez grafické karty?+
Minimum je 8 GB paměti a běží i jen na procesoru, bez samostatné grafiky (jen pomaleji). Platí jednoduché pravidlo: 8 GB rozjede malé modely, 16 GB je ideální start (Qwen 3 8B) a 32 GB a víc rozjede znatelně chytřejší modely. Na Macu s M-čipem se počítá celá sdílená paměť, na PC hlavně VRAM grafické karty.
Funguje Ollama offline, bez internetu?+
Ano. Internet potřebujete jen jednou, na stažení modelu. Pak model běží celý u vás a funguje i v letadle nebo bez připojení. Nic z toho, co napíšete, neodchází ven.
Ollama, nebo LM Studio? Co si vybrat?+
LM Studio je klikací appka bez terminálu, nejsnazší start pro netechnické lidi. Ollama se ovládá příkazy a její síla je v napojení na vlastní nástroje (rozhraní kompatibilní s OpenAI). Když chcete jen chatovat, začněte LM Studiem. Když chcete model zapojit do appky, skriptu nebo agenta, sáhněte po Ollamě.
Mluví modely v Ollamě česky?+
Lepší modely ano. Nejširší pokrytí češtiny mají dnes Qwen a Gemma. Menší a starší modely jsou na češtině slabší, takže pokud vám na ní záleží, vybírejte z těchto rodin a otestujte na vlastním textu.
Jaký model si stáhnout jako první?+
Na běžném notebooku s 16 GB paměti je bezpečný start Qwen 3 8B: spustíte ho příkazem ollama run qwen3:8b a má slušnou češtinu i lehké kódování. Výkonnější gpt-oss:20b od OpenAI se vejde díky úspornému formátu taky, ale na 16 GB je to těsné, pohodlně poběží od 24 GB. Na 8GB stroji začněte menším modelem jako Llama 3.2.
Můžu Ollamou pohánět přímo Claude Code místo Opusu?+
Teoreticky ano. Ollama dnes umí mluvit i rozhraním Anthropicu, takže Claude Code se dá přesměrovat na lokální model. Prakticky to ale zatím nedoporučuju: na vážné programování lokální modely nedosahují kvalit cloudových modelů jako Opus nebo Sonnet, a model, který by se jim přiblížil, by chtěl stovky gigabajtů až kolem terabajtu paměti pro grafiku (datacentrum, ne notebook). Lokální model nasaďte na ohraničené úlohy uvnitř appek, ne jako náhradu agenta.
Co je llama.cpp a jak souvisí s Ollamou?+
llama.cpp je výpočetní engine, který umí spustit AI model na běžném počítači. Ollama (i LM Studio) ho mají pod kapotou a obalují ho do pohodlného ovládání: stažení modelu, správa, server. Sami s llama.cpp pracovat nemusíte, Ollama to dělá za vás.