Čtenáři jako vy pomáhají podporovat MUO. Když provedete nákup pomocí odkazů na našich stránkách, můžeme získat provizi přidružené společnosti. Přečtěte si více.

OpenAI's Whisper je nové řešení založené na umělé inteligenci, které dokáže přeměnit váš hlas na text. Nejlepší ze všeho je, že to přijde za nulové náklady.

Má to však háček: instalace a používání je náročnější než průměrná utilita pro Windows. Zvláště pokud chcete použít Tensor Cores vašeho GPU Nvidia k tomu, abyste ho pěkně podpořili.

Neznepokojujte se však. Proto jsme tady! Čtěte dále a zjistěte, jak jej nainstalovat a používat, ale také, pokud jej vlastníte, aby Whisper využil výhod vašeho GPU Nvidia.

Co je OpenAI's Whisper?

ChatGPT je dnes v módě a už jsme to viděli jak můžete používat ChatGPT od OpenAI. A přesto to není jediný zajímavý projekt OpenAI.

Whisper, poháněný hlubokým učením a neuronovými sítěmi, je systém pro zpracování přirozeného jazyka, který dokáže „rozumět“ řeči a přepsat ji do textu. Ale je to také jeho vlastní věc, sedí na místě přímo mezi všemi podobnými řešeními:

  • Whisper je řešení AI „vycvičené“ na přirozený jazyk. Takže lépe rozumí "normální" lidské řeči než starší řešení.
  • Whisper nepřichází s rozhraním, ani nemůže nahrávat zvuk. Může převzít pouze existující zvukové soubory a výstupní textové soubory.
  • Vzhledem k tomu, že je dobrý v tom, „dávat smysl jazyku“, má Whisper také superschopnost automatického překladu v jediném kroku.
  • Whisper není online služba a může fungovat zcela offline.
  • Pokud máte relativně moderní GPU Nvidia (GTX970 nebo novější), Whisper může běžet v „hardwarově akcelerovaném režimu“, aby zvýšil svou rychlost.
  • Není potřeba se registrovat, zakoupit si licenci nebo zakoupit předplatné.

Proč nejsou podporovány GPU AMD?

Aby GPU byly užitečné pro více než grafiku, musely by fungovat jako plně programovatelné procesory. Proto Nvidia vytvořila CUDA, oficiálně označovanou za „paralelní výpočetní platformu a programovací model“. Chcete-li se dozvědět více o CUDA a souvisejícím hardwaru („CUDA jádra“), přečtěte si náš článek na co jsou jádra CUDA a jak zlepšují hraní na PC.

CUDA je patentovaná technologie Nvidia, kompatibilní pouze s GPU Nvidia. Nejbližšími alternativami pro hardware AMD jsou OpenCL a Radeon Compute Platform. Chcete-li se dozvědět více o porovnání řešení jednotlivých společností, podívejte se na náš článek na Výpočetní jednotky AMD vs. CUDA jádra Nvidia.

Ve srovnání s alternativami je CUDA považována za vyzrálejší, výkonnější a snadněji použitelná. Většina vývojářů se tedy zaměřuje pouze na CUDA, což zase znamená, že jejich software využívá pouze hardwarové funkce na GPU Nvidia. A to včetně Whispera.

Jak stáhnout a nainstalovat Whisper

Whisper bohužel není samostatná aplikace, kterou si můžete stáhnout, nainstalovat a spustit. Spoléhá na další software, který je také nutné nainstalovat.

Pro Windows, aby byla tato příručka jednoduchá, použijeme Chocolatey ve velké míře k instalaci většiny nezbytných softwarových částí. Podívejte se na našeho průvodce nejrychlejší způsob instalace softwaru Windows pro více informací o Chocolatey.

Pro Linux a Mac by měl být instalační proces (s výjimkou proměnné cesty Windows a snadno použitelných dávkových souborů, které vytvoříme) podobný.

  1. Chcete-li nainstalovat a používat Whisper, musíte mít Krajta a jeho PIP nástroj nainstalován a přidán do proměnné "Cesta" systému Windows. Informace o tom najdete v našem článku na jak nainstalovat Python PIP na Windows, Mac a Linux.
  2. Nainstalujte FFMPEG přes Chocolatey pomocí tohoto příkazu:
    čoko Nainstalujte ffmpeg
    Nainstalujte také jeho verzi Pythonu pomocí:
    pip3 Nainstalujte python-ffmpeg
  3. Nakonec nainstalujte Whisper z jeho stránky Github pomocí:
    pip3 nainstalovat git+https://github.com/openai/whisper.git

Získání verze Whisper s podporou CUDA

Přestože Whisper nepoužívá GPU Nvidia, pochodeň balíček, na který se spoléhá, ​​nabízí verzi s akcelerací CUDA. Použití této namísto „obyčejné“ verze může Whisperovi pomoci dokončit přepisy mnohem rychleji s pomocí vašeho GPU Nvidia.

Chcete-li, aby Whisper používal jádra CUDA vašeho GPU Nvidia:

  1. Pokud již máte nainstalovanou „vanilkovou“ verzi baterky, odinstalujte a vyčistěte její zbytky pomocí:
    pip3 odinstalovat pochodeň
    Až to bude hotové, pokračujte s:
    pip mezipamětiočistit
  2. Nainstalujte verzi hořáku s podporou CUDA pomocí:
    pip3 Nainstalujte pochodeň torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Chcete-li zkontrolovat, zda Whisper může používat váš GPU Nvidia, použijte:
    šepot --pomoc | findstr -i pytorch
    Měl bys vidět (výchozí: cuda) namísto (výchozí: cpu).

Co dělat, když se pochodeň nepodaří nainstalovat

Pokud se při instalaci pochodně setkáte s chybou „nenalezena žádná verze“, možná budete muset nainstalovat starší verzi Pythonu paralelně k vaší aktuální.

K tomu použijte tento příkaz:

čoko Nainstalujte krajta --version OLDER_VERSION --side-by-side

Nahraďte „OLDER_VERSION“ verzí, například 3.10.

Poté použijte cestu sekundární verze pro všechny "obecné" příkazy Whisper (např. "c:\Python310\Scripts\pip.exe" spíše než jen "pip").

Jak nahrát svůj hlas

K přeměně hlasu na soubor WAV nebo MP3 můžete použít jakoukoli aplikaci pro nahrávání zvuku. Windows takovou aplikaci obsahuje – další informace o ní naleznete v části jak používat aplikaci Windows 10 Voice Recorder.

Chcete-li získat plnohodnotnější možnost, zkuste to Drzost. Naučte se, jak na to s naším průvodcem jak používat Audacity k nahrávání zvuku na Windows a Mac.

Jak začít přepisovat pomocí Whisperu

Přestože Whisper nepřichází s uživatelsky přívětivým GUI, jeho použití je velmi jednoduché.

Řekněme, že máme soubor LatestNote.mp3 který obsahuje řeč v řečtině, ve složce c:\MyAudioFilesa chcete jej přeložit do angličtiny a přepsat do textového souboru.

  1. Začínáme běháním Příkazový řádek nebo PowerShell.
  2. Tímto příkazem „změníme adresář“, kde je uložen zvukový soubor:
    CD C:\MyAudioFiles
  3. Uvolníme Whisper na souboru pomocí:
    šepot--Modelkazákladna--JazykGR--úkolpřeložitNejnovější Poznámka.mp3

Po zpracování se textový soubor (s názvem „LatestNote.mp3.txt“) objeví ve stejné složce. Otevřete jej v textovém editoru jako poznámkový blok pro zobrazení přeloženého textu.

Použili jsme příklad překladu, protože anglický přepis je ještě přímočařejší: stačí „ztratit“ příznaky „--language“ a „-task“. Pro prostý přepis by tedy výše uvedený příkaz byl:

šepot--ModelkazákladnaNejnovější Poznámka.mp3

Příznak "model" je vyžadován, protože Whisper používá jednu z různých možností. Pojďme si je rozvést, abychom vám pomohli vybrat to nejlepší pro vaše potřeby.

Jaký model si vybrat?

Whisper nabízí různé jazykové modely. Čím větší model, tím lepší přesnost, ale také vyšší hardwarové nároky. Oni jsou:

  1. Drobný.
  2. Základna.
  3. Malý.
  4. Střední.
  5. Velký.

Většina rodilých mluvčích angličtiny by měla být v pořádku drobný nebo základna modely. Nerodilí mluvčí angličtiny mohou vidět lepší výsledky s většími modely, např malý a střední.

Všimněte si však, že střední a velké modely vyžadují více než 8 GB VRAM (tj. „paměť vašeho GPU“).

Chcete-li vybrat jeden z nich, zadejte model za přepínačem "--model" v příkazu:

šepot --model malý/malý/střední/velký [soubor]

Například:

šepot--ModelkamalýMy_Voice_Note.mp3

Jak zefektivnit svůj přepis

Pokaždé, když budete chtít přepsat nějaký zvuk, budete muset psát celý příkaz Whisper, může vás rychle omrzet. Vytvořme globálně přístupný dávkový soubor pro zefektivnění procesu.

  1. Běh Průzkumník Windows a navštivte váš disk C:.
  2. Vytvořte složku pro své skripty a zkopírujte její cestu do schránky.
  3. V nabídce Start systému Windows vyhledejte „cesta“ a vyberte Upravte systémové proměnné prostředí.
  4. Najít Cesta proměnná pod Uživatelské proměnné pro YOUR_USERNAME. Chcete-li jej upravit, poklepejte na něj. Klikněte na Novýa vložte cestu ke složce skriptů. Klikněte na OK přijmout změny.
  5. Vraťte se do složky skriptů v Průzkumníkovi Windows. Vytvořte zde nový dávkový soubor s názvem "wht.bat". "Uvnitř" umístěte tento příkaz:
    šepot --model tiny --language cs %1
  6. Vytvořte další dva dávkové soubory, "whs" a "whm".
  7. Umístěte toto do prvního skriptu:
    šepot --model small --language cs %1
  8. Umístěte to do druhého:
    šepot --model medium --language cs %1

Gratulujeme, nyní máte tři skripty pro snadné používání malých, malých a středních modelů Whisper s vašimi zvukovými soubory! Chcete-li přepsat jakýkoli zvukový soubor na text:

  1. Vyhledejte soubor s Průzkumník souborů Windows.
  2. Klikněte pravým tlačítkem myši na prázdné místo a vyberte si Otevřít v Terminálu.
  3. Zadejte tento příkaz a nahraďte "wht" za "whs" nebo "whm", chcete-li použít malé nebo střední jazykové modely:
    whtYOUR_AUDIO_FILE.mp3

Psaní rychlostí zvuku s šepotem

Ani ti nejrychlejší dotykoví písaři se nemohou rovnat rychlosti, jakou mluvíme. Až donedávna však nebylo pro vytváření dokumentů optimální mluvit místo psaní.

Většina řešení pro převod hlasu do textu přinesla průměrné výsledky. Můžete najít několik řešení, která stojí za vyzkoušení, ale jejich použití bylo komplikované nebo nákladné. Naštěstí to Whisper všechno změnil.

Po výše uvedených krocích byste měli být připraveni přepsat nebo přeložit svůj hlas s vysokou přesností pomocí jediného příkazu.