Tipy a nástroje18. června 2026 · 8 min čtení

Handy: zdarma a 100% lokální alternativa Wispr Flow

Diktování je dnes nejrychlejší způsob, jak mluvit s AI. Wispr Flow je skvělý, ale je placený a cloudový. A tak mám pro vás tip: Handy je open-source, zdarma a hlavně běží celý u vás v počítači.

Handy: zdarma a 100% lokální alternativa Wispr Flow

🎧 Poslechnout článek

10:17

Namluveno mým hlasem přes AI

Píšu málokdy. Většinou mluvím.

Diktování je dneska můj hlavní vstup do AI. Místo psaní delších promptů je pro mě vždy přirozenější a rychlejší ho namluvit. Volný chod myšlenek nebrzdí rychlost prstů.

Pro přepis promptů do textu používám už nějakou dobu Wispr Flow. Je výborný, rád ho doporučuji, ale má několik ale. Je docela dost drahý a taky běží v cloudu. Vaše data, hlas a myšlenky odesíláte na cizí servery. A obě nevýhody se dají docela elegantně vyřešit.

Alternativa, kterou bych vám rád doporučil, se jmenuje Handy. Je open-source, běží 100% lokálně na vašem počítači (neposílá žádná data, nikam) a dokonce umí být násobně rychlejší.

Proč vůbec diktovat do AI

Existují dva hlavní důvody, proč zadávat AI, v mém případě Claude Code, hlasem než promptovat psaním:

  1. Mluvený prompt dává mnohem bohatší kontext. A jak víme, kontext je pro práci s AI naprosto klíčový.
  2. Rychlost. Pro většinu lidí je mluvení mnohem rychlejší a méně namáhavé.

Wispr Flow: skvělý, placený, cloudový

Ať je jasno, Wispr Flow je špička. Nejhladší UX z toho, co jsem zkoušel, postprocessing přes AI, který text uhladí, custom slovník. Pokud chcete funkční řešení na klíč a nevadí vám si za něj zaplatit, není asi co řešit.

Co stojí za to vědět:

  • Cena: 15 dolarů měsíčně, nebo zhruba 12 dolarů měsíčně při roční platbě (144 dolarů/rok). Free verze je do 2 000 slov týdně, což na pořádné používání nestačí.
  • Cloud: a tohle je ten zásadní bod. Váš hlas jde při každém diktování přes internet na jejich servery (běží to na AWS a posílá se to dál do jazykových modelů). Nemá žádnou možnost lokálního zpracování.
  • Data: Wispr data neprodává. Ale v defaultním nastavení se vaše diktování může používat na zlepšování jejich modelů. Jde to vypnout (Privacy Mode / zero data retention), ale musíte to udělat ručně, samo se to nezapne.

Férově: pro spoustu lidí je to v pohodě. Ale když diktujete pracovní věci, klientská data nebo cokoliv citlivého, je dobré vědět, kudy ten zvuk teče.

Handy: hlas, který neopustí váš počítač

Handy je open-source diktovací appka (licence MIT, takže fakt zdarma a otevřená). Postavená na Tauri a Rustu. A celý vtip je v jednom:

Nic neodchází z vašeho počítače. Žádný cloud, žádné API, žádný server. Přepis běží lokálně na vašem stroji. Z jejich vlastního popisu: „Váš hlas zůstává ve vašem počítači." A kromě jiného ani žádné placené subscription.

Jak to funguje v praxi:

  • Instalace na Macu: brew install --cask handy a je to.
  • Push-to-talk: podržíte zkratku (default ⌥Space), mluvíte, pustíte, a text se vloží tam, kde máte kurzor. Je tam i varianta s AI postprocessingem, který text uhladí (a může běžet i lokálně přes Apple Intelligence, takže pořád offline).
  • Modely: Handy si stáhnete buď s Whisperem (různé velikosti), nebo s Parakeetem. A tady to začíná být zajímavé.

Handy běží na macOS, Windows i Linuxu

Je mi jasné, že ne každý pracuje na Macu. Proto tohle je docela důležitý detail:

  • Handy: na Windows stáhnete instalátor .exe/.msi (x64 i ARM) z handy.computer, na Linuxu balíčky .AppImage/.deb/.rpm. Whisper i Parakeet jdou na všech systémech, Parakeet je navíc optimalizovaný na CPU, takže běží i bez výkonné grafiky. (Jen nečekejte na Windows úplně stejnou GPU akceleraci jako na Apple Silicon, dokumentace to přesně neslibuje.)
  • Wispr Flow běží taky na Windows (a na mobilu), free limit je stejný jako na Macu. Pořád ale platí, že je cloudový.

Engine je důležitější než appka: Parakeet vs Whisper

Appka je jen obal, o kvalitě a rychlosti rozhoduje přepisový model uvnitř.

Whisper od OpenAI znáte. Je přesný a umí skoro všechno. Ale je relativně pomalý a má jednu nectnost: na tichu nebo šumu se umí „zacyklit" a vyrábět opakující se nesmysly (klasická halucinace).

Parakeet (konkrétně NVIDIA parakeet-tdt-0.6b-v3) je menší model, který umí 25 evropských jazyků včetně češtiny, licence CC-BY-4.0. A je neuvěřitelně rychlý. Proč? Používá architekturu zvanou TDT (Token-and-Duration Transducer), která při přepisu chytře přeskakuje prázdné zvukové úseky místo toho, aby je krok po kroku přežvykovala. Navíc je díky téhle architektuře odolnější proti zacyklení než Whisper.

Nevěřil jsem těm číslům, tak jsem to změřil sám.

Reálný test: 51 minut videa, Mac Studio M3 Ultra

Vzal jsem 51 minut dlouhé video jedné z lekcí mého kurzu (čeština plná anglických termínů: Claude Code, MCP, GA4) a pustil na něj oba modely za sebou.

EngineČas přepisuRychlost vs realtimeSlov
Parakeet V334 s~90×7 144
Whisper Large V3281 s (4 min 41 s)~11×7 759

Parakeet byl 8,3× rychlejší. Padesát minut zvuku přepsal za 34 sekund. To není překlep.

Ale pozor, rychlost není všechno. Když jsem si výstupy přečetl vedle sebe:

  • Whisper byl znatelně přesnější na běžné češtině i na brandech. Tam, kde Parakeet napsal „pěně" a „tofám", měl Whisper správně „pěkně" a „doufám". Whisper taky chytil „AI First", Parakeet ho občas spolkl.
  • Parakeet je za to bleskový a (pro AI) plně čitelný. Jen sem tam zahodí slovo a u anglických slov v české větě komolí (z „Claude Code" udělal „klotkodu").
  • Ani jeden netrefil přesně „Claude Code" nebo „Sklik". Anglická slova v české řeči jsou pro oba kámen úrazu.

Mimochodem, zkoušel jsem i NVIDIA Canary, který je papírově ještě přesnější. Na delším zvuku se mi ale rozsypal do halucinační smyčky („víc, víc, víc…"). Je to attention model jako Whisper, jen náchylnější. Slepá ulička, zatím zůstávám u dvojice Parakeet + Whisper.

Pro náročnější: diktování je jen začátek, workhorse je CLI

Pokud jste běžný uživatel, klidně přeskočte. Tahle část je pro ostřílené vibe codery.

Přepisuju hromady (vysoké tisíce) souborů, které pak cpu do AI systémů. Na to nestačí appka s mikrofonem, na to potřebuju CLI nástroj, který umí Claude Code zavolat sám jako skill.

Mám proto vlastní open-source verzi Whisperu: faborsky/whisper-cz-en. Je to nadstavba nad whisper.cpp, kterou jsem upravil pro svoje potřeby:

  • Čeština i angličtina přes samostatné skripty, model Whisper Large V3.
  • Anti-halucinační pipeline: 5minutové chunkování + Silero VAD + vyladěné parametry dekodéru. To je přesně ta obrana proti zacyklení, o které jsem psal výš.
  • Plně offline, akcelerované na Apple Silicon (Metal GPU).
  • Výstupy na míru: plynulý text (.md), titulky (.srt) i přepis se slovem po slově a časováním (JSON pro střih videa a titulky).
  • Agent-friendly: Claude Code ho volá jako skill, ale funguje i samostatně z terminálu.

Je celé veřejné na GitHubu, takže si ho klidně forkněte, nainstalujte podle README a používejte u sebe.

Vedle toho jsem si teď postavil i druhý skill přes Parakeet (běží na MLX, tj. Apple Silicon). Když potřebuju rychlost, jede Parakeet. Když potřebuju přesnost, jede Whisper.

Trik, který zvedne kvalitu víc než výměna modelu

Tohle je pro mě největší zjištění z celého testování. Kvalitu přepisu neřeší volba modelu, ale postprocessing přes AI s glosářem.

Postup: nechám Parakeet bleskově přepsat (90× realtime), a pak ten text proženu jazykovým modelem, kterému dám glosář svých termínů (Claude Code, AI First, Sklik, Supabase, MCP, názvy projektů). Model opraví přesně ty brandy a anglicismy, co netrefí žádný engine.

Z „přípole ke klotkodu" se stane „přiblíží ke Claude Code". A výsledek je na mém typu obsahu lepší než syrový Whisper, přitom pořád super rychlý. A když ten cleanup pustím lokálně, nikam neodejde ani písmenko.

To je celá pointa vibe codingu: neberete nástroje jak jsou, ale skládáte si z nich vlastní pipeline, která sedí přesně na to, co děláte.

Co si z toho vybrat

  • Chci přepisovat zdarma a mít 100% soukromí: Handy s Parakeetem. Zdarma, lokálně, na Macu i Windows. Hotovo.
  • Chci co největší spolehlivost, případně nenamlouvám jen pro AI, ale i pro lidi, a nevadí mi cloud + platba: Wispr Flow je pravděpodobně správná volba.
  • Jsem náročný nebo geeky uživatel: Postavím si CLI nástroj (klidně si forkněte moje repo), k tomu nějaký skill a případně i postprocessing s glosářem.

Nejhezčí na tom je, že ta nejlepší volba pro většinu lidí je zároveň ta nejlevnější. Free, otevřená a bezpečná.

Pokud vás baví takhle si skládat vlastní nástroje a chcete se to naučit od základu, přesně tohle učím v kurzu AI First. Žádná teorie, jen postupy, co používám každý den.

Mrkněte na Handy, stáhněte si Parakeet a zkuste si nadiktovat první prompt. Dost možná už nikdy nebudete chtít psát. 🎙️


Mohlo by vás zajímat: Přepis audia a videa zdarma (Whisper) na přepis nahraných souborů, Ollama: lokální AI modely v terminálu, Jak jsem se díky AI naučil 70 technologií za jeden rok a Proč je vibe coding nejužitečnější dovednost dneška.