Tvůrci ChatGPT mají další nástroj, jehož cílem je zbavit vaše prsty zátěže.

Ti samí lidé za ChatGPT vytvořili další nástroj založený na umělé inteligenci, který můžete dnes použít ke zvýšení své produktivity. Máme na mysli Whisper, řešení pro převod hlasu do textu, které zastínilo všechna podobná řešení, která existovala před ním.

Whisper můžete použít ve svých programech nebo na příkazovém řádku. A přesto to maří jeho samotný účel: psaní bez klávesnice. Pokud potřebujete psát, abyste to mohli používat, proč to používat, abyste se vyhnuli psaní? Naštěstí nyní můžete Whisper používat prostřednictvím desktopového GUI. Ještě lepší je, že dokáže přepsat váš hlas téměř v reálném čase. Podívejme se, jak můžete psát hlasem pomocí Whisper Desktop.

Co je OpenAI's Whisper?

OpenAI's Whisper je systém automatického rozpoznávání řeči (zkráceně ASR) nebo, zjednodušeně řečeno, je řešením pro převod mluveného jazyka na text.

Na rozdíl od starších systémů diktování a přepisu je však Whisper řešením umělé inteligence vyškoleným na více než 680 000 hodinách řeči v různých jazycích. Whisper nabízí nesrovnatelnou přesnost a, což je docela působivé, je nejen vícejazyčné, ale umí také překládat mezi jazyky.

instagram viewer

A co je důležitější, je to zdarma a dostupné jako open source. Díky tomu mnoho vývojářů vložilo jeho kód do svých vlastních projektů nebo vytvořilo aplikace, které na něm spoléhají, jako je Whisper Desktop.

Pokud dáváte přednost „vanilkové“ verzi Whisper a všestrannosti terminálu místo neohrabaných GUI, podívejte se na náš článek na jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows.

Jsou Whisper a Whisper Desktop stejné?

Navzdory svému oficiálně znějícímu názvu je Whisper Desktop GUI třetí strany pro Whisper, vytvořené pro každého, kdo dává přednost klikání na tlačítka místo psaní příkazů.

Whisper Desktop je samostatné řešení, které se nespoléhá na existující instalaci Whisper. Jako bonus používá alternativní, optimalizovanou verzi Whisper, takže by měla fungovat lépe než samostatná verze.

Jste na druhém konci spektra a místo hledání jednoduššího způsobu použití Whisperu, než je terminál, hledáte způsoby, jak jej implementovat do svých vlastních řešení? Radujte se, pro OpenAI otevřela přístup k API ChatGPT a Whisper.

Stáhněte a nainstalujte Whisper Desktop

Přestože se Whisper Desktop používá snadněji než samostatný Whisper, jeho instalace je komplikovanější než opakované klikání na Další v průvodci.

  1. Návštěva Oficiální stránka Github Whisper Desktop. Podívejte se vpravo a klikněte na nejnovější verzi pod Vydání.
  2. Pod Aktiva, klikněte WhisperDesktop.zip a stáhněte si ho do svého PC.
  3. Rozbalte stažený archiv do složky a pomocí správce souborů jej navštivte. Uvnitř najdete aplikaci Whisper Desktop. Poklepáním na něj jej spustíte.
  4. Potřebujete také jazykový model Whisper GCML binární formát. Whisper Desktop vám poskytne dva odkazy pro získání jednoho. Přeskočte druhý odkaz pro generování vlastního modelu, protože je to složitější proces. Klikněte na Objímání obličeje otevřete tuto stránku ve výchozím prohlížeči, odkud si můžete stáhnout soubor připravený k použití.
  5. Verze Whisper Desktop, kterou jsme použili při psaní tohoto článku, poskytla odkaz na zastaralé úložiště na Hugging Face. Pokud narazíte na stejný problém, všimněte si odkazu na a nové umístění. Kliknutím na něj přejdete do nového úložiště.
  6. Klikněte na odkaz, který vás přesměruje na dostupné modely.
  7. V tomto seznamu klikněte na buď ggml-medium.bin nebo ggml-medium.en.bin, v závislosti na tom, zda chcete ve Whisperu podporu ve více jazycích nebo pouze v angličtině.
  8. Konečně byste měli dorazit do cíle. Všimněte si řádku, který uvádí, že tento soubor je uložen v Git LFS a je příliš velký na zobrazení, ale přesto si jej můžete stáhnout. Klikněte na stažení přesně to udělat.
  9. Po dokončení stahování souboru přesuňte stažený soubor jazykového modelu do stejné složky jako Whisper Desktop pomocí svého oblíbeného správce souborů (to udělá Průzkumník souborů).

Přepis S Whisper Desktop

Přepis pomocí Whisper Desktop je snadný, ale k používání aplikace budete možná potřebovat jedno nebo dvě kliknutí.

Znovu spusťte Whisper Desktop. Chybí (stále) správná cesta k vašemu staženému jazykovému modelu? Klikněte na tlačítko se třemi tečkami napravo od pole a ručně vyberte soubor, který jste stáhli z Hugging Face.

Z tohoto místa můžete také použít rozbalovací nabídku vedle Implementace modelu vyberte, zda chcete na svém GPU spustit Whisper (GPU), na CPU i GPU (Hybridní), nebo pouze na CPU (Odkaz).

The Pokročilý vede k dalším možnostem, které ovlivňují, jak bude Whisper na vašem hardwaru fungovat. Protože však tlačítko jasně uvádí, že jsou pokročilé, doporučujeme je vyladit pouze v případě, že řešíte problémy nebo víte, co děláte. Nastavení nesprávných hodnot možností zde může způsobit penalizaci výkonu nebo způsobit, že aplikace nebude použitelná.

Klepnutím na OK se přesunete do hlavního rozhraní aplikace.

Pokud již máte nahrávku svého hlasu, kterou chcete převést na psaný text, klikněte na Přepis souboru a vyberte jej. Přesto pro tento článek použijeme Whisper Desktop pro živý přepis.

Nabízené možnosti jsou přímočaré. Můžete vybrat Jazyk Whisper použije, vyberte si, jestli chcete přeložit mezi jazyky a aktivujte aplikaci Debug Console.

Většina anglicky mluvících uživatelů může tyto možnosti bezpečně přeskočit a zajistit pouze výběr správného zvukového vstupu z rozbalovací nabídky vedle Zachycovací zařízení.

Ujisti se Uložit do textového souboru a Připojit k tomuto souboru jsou povoleny, aby Whisper Desktop uložil svůj výstup do souboru bez přepsání jeho obsahu. Použijte tlačítko se třemi tečkami napravo od pole cesty k souboru k definování uvedeného textového souboru.

Klikněte na Zachyťte začněte přepisovat svou řeč na text.

Whisper Desktop vám zobrazí tři indikátory, kdy detekuje hlasovou aktivitu, kdy aktivně přepisuje a kdy je proces zastaven.

Můžete mluvit tak dlouho, jak chcete, a občas byste měli vidět blikat první dva indikátory, zatímco aplikace přeměňuje váš hlas na text. Klikněte Stop až bude hotovo.

Textový soubor, který jste vybrali, by se měl otevřít ve vašem výchozím textovém editoru a obsahovat v psané formě vše, co jste řekli, dokud nekliknete Stop.

Měli bychom poznamenat, že můžete také udělat opak toho, co jsme viděli zde: převést jakýkoli text na řeč. Tímto způsobem můžete poslouchat cokoli, jako by to byl podcast, místo toho, abyste unavovali oči mžouráním na obrazovky. Další informace o tom najdete v našem článku na některé z nejlepších bezplatných online nástrojů pro stahování převodu textu na řeč ve formátu MP3.

Tipy pro hlasové psaní Whisper Desktop

Přestože Whisper Desktop může být záchranou a umožňuje vám psát hlasem mnohem rychleji, než byste mohli psát, k dokonalosti má daleko.

Během našeho testování jsme zjistili, že se může občas zadrhávat, přeskakovat některá slova, nedaří se vám přepsat, dokud se vám to nepodaří ručně zastavte a restartujte proces nebo se zasekněte ve smyčce a opakujte přepisování stejné fráze opakovaně.

Věříme, že se jedná o dočasné závady, které budou opraveny, protože samostatný Whisper nevykazuje stejné problémy.

Kromě těchto drobných nerovností by přeměna hlasu na text s Whisper Desktop měla být snadná. Přesto jsme během našich testů zjistili, že může fungovat ještě lépe, pokud...

  1. Namísto toho, abyste vyslovili pouze dvě nebo tři slova a pak se zastavili, vám Whisper lépe porozumí, pokud budete pokračovat déle. Zkuste tomu dát alespoň celou větu najednou.
  2. Ze stejného důvodu se vyhněte opakovanému spouštění a zastavování procesu přepisu.
  3. Kdykoli si uvědomíte, že jste udělali chybu, ignorujte ji a pokračujte. Načítání a vyjímání jazykového modelu se zdá být časově nejnáročnější částí procesu se současným stavem Whisperu a našeho dostupného hardwaru. Takže je rychlejší mluvit dál a potom své chyby opravit.
  4. Stejně jako u samostatné verze Whisper je nejlepší použít optimální jazykový model pro váš dostupný hardware. Můžete použít až do střední model, pokud má vaše GPU 8 GB paměti VRAM. Pro méně paměti VRAM jděte na menší modely. Volte jen o něco přesnější, ale také mnohem náročnější velký model, pokud používáte GPU s 16 GB VRAM nebo více.
  5. Pamatujte, že čím větší je jazykový model, tím pomalejší je proces přepisu. Nechoďte na model větší, než je potřeba. Pravděpodobně zjistíte, že Whisper Desktop vám již většinu času „rozumí“ se středními nebo menšími modely, pouze s jednou nebo dvěma chybami na odstavec.

Stále píšete? Použijte svůj hlas s šepotem

Přestože nastavení vyžaduje určitý čas, jak uvidíte, až to vyzkoušíte, Whisper Desktop funguje mnohem lépe než většina alternativ, s mnohem vyšší přesností a vyšší rychlostí.

Poté, co ji začnete používat k psaní hlasem, může vaše klávesnice vypadat jako relikvie z dávných dob dávno minulých.