Průvodce lokální AI

Ollama: lokální AI modely ve vašem terminálu

Jeden příkaz a běží vám AI model přímo u sebe: zdarma, offline a soukromě. Provedu vás od instalace po napojení do vlastních nástrojů.

Autor: Jindřich Fáborský · 17 let v marketingu · 2 000+ hodin vibe codingu · 180+ projektů

terminál

ollama run gpt-oss:20b

pulling model… ✓ success

Napiš pozvánku na snídani

Dobré ráno! Zveme vás na firemní snídani tento pátek od 9:00…

✓ spočítáno lokálně · 0 Kč · offline

Model běží na vašem počítači, ne v cloudu.

Rychlá odpověď

Co je tedy Ollama?

Ollama je program, který stáhne a spustí AI model přímo na vašem počítači. Ovládáte ji jedním příkazem a chatujete s modelem jako s ChatGPT, jen běží lokálně u vás.

Zadání nikam neodchází, neplatíte za tokeny a model běží i offline. Její hlavní síla je ale jinde: vystavuje rozhraní, na které napojíte vlastní aplikace a skripty. Je to jedna z cest z našeho průvodce lokální AI.

Čím je Ollama jiná:

ZdarmaOfflineSoukroměMac · Windows · LinuxAPI kompatibilní s OpenAI

Od nuly k prvnímu chatu

Rozjeďte první model v pěti příkazech

Tohle je ruční cesta pro každého, kdo chce Ollamu v terminálu. Od stažení modelu po první odpověď to máte za pár minut.

terminál

ollama run gpt-oss:20b

pulling manifest
100%
pulling model 13 GB
100%

verifying sha256… writing manifest

✓ success

>>> Napište zprávu (/bye ukončí)

Krok 2 z 5 · První model

ollama run gpt-oss:20b

Jeden příkaz model stáhne a rovnou spustí. Stahuje se jen poprvé (pár GB), pak ho máte trvale u sebe a běží offline.

Pět příkazů od nuly k prvnímu chatu. Klikejte krok po kroku, příkazy si rovnou kopírujte.

Který model stáhnout

Vyberte model podle své paměti

O tom, jak velký model rozjedete, rozhoduje paměť. Najděte svou RAM, zkopírujte příkaz a model si stáhnete jedním řádkem.

8 GB
Llama 3.2 · Gemma 3 · Qwen 3 (malé)
ollama run llama3.2

Chat, shrnutí, klasifikace, vytažení údajů z textu. Na češtinu sáhněte po Qwenu nebo Gemmě.

16 GBZačněte tady
Qwen 3 8B
ollama run qwen3:8b

Bezpečný start na běžném notebooku: slušná čeština i lehké kódování. Tady bych začínal.

24 GB
gpt-oss:20b (od OpenAI)
ollama run gpt-oss:20b

OpenAI ho dodává v úsporném formátu MXFP4, takže 20B model zabere jen ~13 GB. Na 16 GB se vejde, ale těsně, pohodlně jede od 24 GB.

32 GB
Qwen 3 32B · Gemma 3 27B
ollama run qwen3:32b

Znatelně chytřejší odpovědi, a pořád v rozumné ceně stroje.

64 GB+
Llama 3.3 70B
ollama run llama3.3:70b

Velké modely. Chtějí výkonný stroj, běh je pomalejší.

128 GB+
gpt-oss:120b
ollama run gpt-oss:120b

Můj 100% privátní produkční model. Jede mi na Macu Studio s 256 GB sdílené paměti.

Rozhoduje paměť pro grafiku (na Macu sdílená, na PC hlavně VRAM karty), modely stárnou rychle. Co přesně se vejde a jak rychle, spočítá konfigurátor na našem průvodci lokální AI. Detailní žebříček podle úloh a češtiny chystám jako samostatného průvodce.

Napojení do nástrojů

Nemusíte umět příkazy: řeknete to Claude Code

Tohle Ollamu odlišuje od klikacích appek. Když vibe codujete, lokální model do své appky nezapojujete ručně. Řeknete větou Claude Code, ať volání přesměruje na Ollamu, a on přepíše kód za vás.

Claude Code

V téhle appce nahraď OpenAI lokální Ollamou, použij model gpt-oss:120b.

Hledám, kde appka volá OpenAI…

- base_url = "https://api.openai.com/v1"

+ base_url = "http://localhost:11434/v1"

- model = "gpt-4o"

+ model = "gpt-oss:120b"

Hotovo. Appka teď počítá lokálně, do cloudu nejde nic.

Co jste reálně udělali

Appka volala placené OpenAI. Jedna věta a Claude Code přepíše volání na lokální Ollamu. Stejný kód, jen jiná adresa, kterou ale psát nemusíte.

0 Kč za tokenydata u vásfunguje offline

Žádné příkazy jste psát nemuseli. Stačila věta. Pod kapotou je to jen výměna jedné adresy, kterou Claude Code napíše za vás.

Pod kapotou je to jen výměna jedné adresy: appka místo placeného cloudu volá lokální server Ollamy (rozhraní kompatibilní s OpenAI). Tu adresu ale psát nemusíte, napíše ji za vás Claude Code.

Z mé praxe

Na čem mi Ollama reálně jede

Lokální AI je nejsilnější na ohraničených úlohách, kde nepotřebujete ten nejvýkonnější mozek z cloudu. Tohle všechno běží u mě, lokálně a zdarma.

Citlivá data nikdy neopustí Mac

U citlivých složek Claude Code soubory ani neotevře: předá lokálnímu modelu jen cestu k nim. Ten u mě na disku projede zákaznické zprávy nebo smlouvy a vrátí jen výsledek. Běží na gpt-oss:120b přes Ollamu, do cloudu nejde ani řádek a stojí to 0 Kč.

Výběr z 900 přednášek

Před Tech Weekem v San Franciscu mi Claude Code postavil nástroj, který hromadně oskóroval přes 900 přednášek podle relevance. Přesně ten druh dávkové úlohy, který lokálním modelem rozjedete zdarma a bez API limitů.

Jak jsem si vybral z 900 přednášek

Výpisky ke stovkám přednášek

Pro Digisemestr nejdřív lokálně přepíšu stovky nahraných přednášek (Whisperem), pak z přepisů lokální model udělá vyhledávatelné výpisky. Studenti v nich pak hledají a učí se z nich. Všechno běží u mě, zdarma a bez limitů.

Informační systém Digisemestru

Na co si dát pozor

Kde má lokální AI své hranice

Lokální AI má jasné limity. Vyplatí se je znát dřív, než sáhnete po novém počítači.

Claude Code na lokálním modelu? Zatím jen teoreticky

Ollama dnes umí mluvit i rozhraním Anthropicu, takže Claude Code jde přesměrovat na lokální model místo Opusu. Prakticky to ale zatím nedoporučuju. Na vážné programování lokální modely nedosahují kvalit cloudových modelů, a ten, který by se jim blížil, by chtěl stovky gigabajtů až kolem terabajtu paměti pro grafiku. To je datacentrum, ne notebook.

Paměť je strop

Co rozjedete, určuje paměť pro grafiku. Na 8 GB poběží jen malé modely, opravdu chytré modely chtějí výkonný (a dražší) stroj. Velké modely navíc běží pomaleji a první odpověď po startu chvíli trvá, než se model načte do paměti.

Lokální AI je doplněk, ne náhrada

Na náročné programování a velké kontexty nechte frontier model v cloudu. Lokální model nasaďte tam, kde válí: přepis, hromadné dávky, citlivá data a ohraničené úlohy uvnitř vašich appek. Kde leží hranice mezi lokální AI a cloudem, rozebírá náš průvodce lokální AI.

Chcete s AI tvořit, ne jen číst návody?

Ollama je jeden dílek skládačky. V kurzu AI First vás naučím vibe coding od základu: vlastní nástroje, weby i automatizace, a jak do nich zapojit i lokální modely.

21 hodin videí, 1 800+ absolventů, roční licence s aktualizacemi zdarma.

FAQ

Časté otázky

Co je Ollama a k čemu slouží?+

Ollama je program, který stáhne a spustí jazykový AI model přímo na vašem počítači. Ovládáte ho jedním příkazem v terminálu (ollama run …) a chatujete s modelem jako s ChatGPT, jen běží lokálně u vás. Hlavní výhoda je, že vystavuje rozhraní, na které napojíte vlastní aplikace a skripty.

Je Ollama zdarma?+

Ano. Ollama i modely, které přes ni stáhnete (gpt-oss, Qwen, Gemma, Llama), jsou zdarma. Neplatíte za žádné tokeny ani předplatné, jen za elektřinu a hardware, který už máte. U hromadných úloh se to oproti placenému cloudu rychle vyplatí.

Kolik RAM potřebuju? Běží Ollama bez grafické karty?+

Minimum je 8 GB paměti a běží i jen na procesoru, bez samostatné grafiky (jen pomaleji). Platí jednoduché pravidlo: 8 GB rozjede malé modely, 16 GB je ideální start (Qwen 3 8B) a 32 GB a víc rozjede znatelně chytřejší modely. Na Macu s M-čipem se počítá celá sdílená paměť, na PC hlavně VRAM grafické karty.

Funguje Ollama offline, bez internetu?+

Ano. Internet potřebujete jen jednou, na stažení modelu. Pak model běží celý u vás a funguje i v letadle nebo bez připojení. Nic z toho, co napíšete, neodchází ven.

Ollama, nebo LM Studio? Co si vybrat?+

LM Studio je klikací appka bez terminálu, nejsnazší start pro netechnické lidi. Ollama se ovládá příkazy a její síla je v napojení na vlastní nástroje (rozhraní kompatibilní s OpenAI). Když chcete jen chatovat, začněte LM Studiem. Když chcete model zapojit do appky, skriptu nebo agenta, sáhněte po Ollamě.

Mluví modely v Ollamě česky?+

Lepší modely ano. Nejširší pokrytí češtiny mají dnes Qwen a Gemma. Menší a starší modely jsou na češtině slabší, takže pokud vám na ní záleží, vybírejte z těchto rodin a otestujte na vlastním textu.

Jaký model si stáhnout jako první?+

Na běžném notebooku s 16 GB paměti je bezpečný start Qwen 3 8B: spustíte ho příkazem ollama run qwen3:8b a má slušnou češtinu i lehké kódování. Výkonnější gpt-oss:20b od OpenAI se vejde díky úspornému formátu taky, ale na 16 GB je to těsné, pohodlně poběží od 24 GB. Na 8GB stroji začněte menším modelem jako Llama 3.2.

Můžu Ollamou pohánět přímo Claude Code místo Opusu?+

Teoreticky ano. Ollama dnes umí mluvit i rozhraním Anthropicu, takže Claude Code se dá přesměrovat na lokální model. Prakticky to ale zatím nedoporučuju: na vážné programování lokální modely nedosahují kvalit cloudových modelů jako Opus nebo Sonnet, a model, který by se jim přiblížil, by chtěl stovky gigabajtů až kolem terabajtu paměti pro grafiku (datacentrum, ne notebook). Lokální model nasaďte na ohraničené úlohy uvnitř appek, ne jako náhradu agenta.

Co je llama.cpp a jak souvisí s Ollamou?+

llama.cpp je výpočetní engine, který umí spustit AI model na běžném počítači. Ollama (i LM Studio) ho mají pod kapotou a obalují ho do pohodlného ovládání: stažení modelu, správa, server. Sami s llama.cpp pracovat nemusíte, Ollama to dělá za vás.