Meta's Llama 2 můžete používat online, ale pokud si ji nainstalujete na místní počítač, můžete si její prostředí přizpůsobit a přizpůsobit.
Meta vydala Llama 2 v létě 2023. Nová verze Llama je vyladěna o 40 % více tokenů než původní model Llama, zdvojnásobuje délku kontextu a výrazně překonává ostatní dostupné modely s otevřeným zdrojovým kódem. Nejrychlejší a nejsnadnější způsob, jak získat přístup k Llama 2, je prostřednictvím API prostřednictvím online platformy. Pokud však chcete ten nejlepší zážitek, je nejlepší nainstalovat a načíst Llama 2 přímo na váš počítač.
S ohledem na to jsme vytvořili podrobného průvodce, jak používat Text-Generation-WebUI k načtení kvantizovaného Llama 2 LLM lokálně do vašeho počítače.
Proč instalovat Llama 2 lokálně
Existuje mnoho důvodů, proč se lidé rozhodnou spustit Llamu 2 přímo. Někteří to dělají kvůli ochraně soukromí, někteří kvůli přizpůsobení a další kvůli možnostem offline. Pokud zkoumáte, dolaďujete nebo integrujete Llama 2 pro své projekty, pak přístup k Llama 2 přes API nemusí být pro vás. Smyslem spuštění LLM lokálně na vašem PC je snížit závislost na
nástroje umělé inteligence třetích stran a používejte umělou inteligenci kdykoli a kdekoli, aniž byste se museli obávat úniku potenciálně citlivých dat do společností a dalších organizací.S tím, co bylo řečeno, začněme s podrobným průvodcem pro místní instalaci Llama 2.
Pro zjednodušení použijeme instalátor na jedno kliknutí pro Text-Generation-WebUI (program používaný k načtení Llama 2 s GUI). Aby však tento instalační program fungoval, musíte si stáhnout nástroj Visual Studio 2019 Build Tool a nainstalovat potřebné prostředky.
Stažení:Visual Studio 2019 (Volný, uvolnit)
- Pokračujte a stáhněte si komunitní verzi softwaru.
- Nyní nainstalujte Visual Studio 2019 a poté otevřete software. Po otevření zaškrtněte políčko Vývoj desktopů v C++ a stiskni nainstalovat.
Nyní, když máte nainstalovaný vývoj Desktop s C++, je čas stáhnout si instalační program Text-Generation-WebUI na jedno kliknutí.
Krok 2: Nainstalujte Text-Generation-WebUI
Instalační program na jedno kliknutí Text-Generation-WebUI je skript, který automaticky vytvoří požadované složky a nastaví prostředí Conda a všechny nezbytné požadavky pro spuštění modelu AI.
Chcete-li skript nainstalovat, stáhněte si instalační program jedním kliknutím kliknutím na Kód > Stáhnout ZIP.
Stažení:Text-Generation-WebUI Installer (Volný, uvolnit)
- Po stažení rozbalte soubor ZIP do preferovaného umístění a poté rozbalenou složku otevřete.
- Ve složce přejděte dolů a vyhledejte vhodný spouštěcí program pro váš operační systém. Spusťte programy poklepáním na příslušný skript.
- Pokud používáte Windows, vyberte start_windows dávkový soubor
- pro MacOS vyberte start_macos skořápka
- pro Linux, start_linux shell skript.
- Váš antivirus může vytvořit výstrahu; Tohle je fajn. Výzva je jen antivirus falešně pozitivní pro spuštění dávkového souboru nebo skriptu. Klikněte na Stejně běž.
- Otevře se terminál a spustí se nastavení. Brzy se nastavení pozastaví a zeptá se vás, jaký GPU používáte. Vyberte příslušný typ GPU nainstalovaného v počítači a stiskněte klávesu Enter. Pro ty, kteří nemají vyhrazenou grafickou kartu, vyberte Žádné (chci spouštět modely v režimu CPU). Mějte na paměti, že běh v režimu CPU je mnohem pomalejší ve srovnání se spuštěním modelu s vyhrazeným GPU.
- Jakmile je nastavení dokončeno, můžete nyní lokálně spustit Text-Generation-WebUI. Můžete tak učinit otevřením preferovaného webového prohlížeče a zadáním poskytnuté IP adresy na URL.
- WebUI je nyní připraveno k použití.
Program je však pouze modelovým zavaděčem. Pojďme si stáhnout Llamu 2 pro model loader ke spuštění.
Krok 3: Stáhněte si model Llama 2
Při rozhodování, jakou iteraci Llama 2 potřebujete, je třeba vzít v úvahu několik věcí. Patří mezi ně parametry, kvantizace, optimalizace hardwaru, velikost a využití. Všechny tyto informace budou uvedeny v názvu modelu.
- Parametry: Počet parametrů použitých k trénování modelu. Větší parametry dělají schopnější modely, ale za cenu výkonu.
- Používání: Může být standardní nebo chat. Chatovací model je optimalizován pro použití jako chatbot jako ChatGPT, zatímco standardní je výchozí model.
- Optimalizace hardwaru: Odkazuje na to, jaký hardware nejlépe provozuje model. GPTQ znamená, že model je optimalizován pro běh na vyhrazeném GPU, zatímco GGML je optimalizován pro běh na CPU.
- Kvantování: Označuje přesnost vah a aktivací v modelu. Pro odvození je optimální přesnost q4.
- Velikost: Vztahuje se na velikost konkrétního modelu.
Všimněte si, že některé modely mohou být uspořádány odlišně a nemusí mít dokonce zobrazeny stejné typy informací. Tento typ konvence pojmenování je však v USA poměrně běžný Objímání tváře Modelová knihovna, takže stále stojí za pochopení.
V tomto příkladu lze model identifikovat jako středně velký model Llama 2 trénovaný na 13 miliardách parametrů optimalizovaných pro odvození chatu pomocí vyhrazeného CPU.
Pro ty, kteří používají vyhrazený GPU, zvolte a GPTQ model, zatímco pro ty, kteří používají CPU, vyberte GGML. Pokud chcete s modelem chatovat jako s ChatGPT, vyberte si povídat si, ale pokud chcete experimentovat s modelem s jeho plnými schopnostmi, použijte Standard Modelka. Pokud jde o parametry, vězte, že použití větších modelů poskytne lepší výsledky na úkor výkonu. Osobně bych vám doporučil začít s modelem 7B. Pokud jde o kvantování, použijte q4, protože slouží pouze k vyvozování.
Stažení:GGML (Volný, uvolnit)
Stažení:GPTQ (Volný, uvolnit)
Nyní, když víte, jakou iteraci Llama 2 potřebujete, pokračujte a stáhněte si model, který chcete.
V mém případě, protože to provozuji na ultrabooku, budu používat model GGML vyladěný pro chat, lama-2-7b-chat-ggmlv3.q4_K_S.bin.
Po dokončení stahování vložte model dovnitř generování textu-webui-main > modely.
Nyní, když máte model stažený a umístěný ve složce modelu, je čas nakonfigurovat zavaděč modelu.
Krok 4: Nakonfigurujte Text-Generation-WebUI
Nyní zahájíme fázi konfigurace.
- Znovu otevřete Text-Generation-WebUI spuštěním start_(váš operační systém) soubor (viz předchozí kroky výše).
- Na kartách umístěných nad GUI klikněte Modelka. Klikněte na tlačítko aktualizace v rozbalovací nabídce modelu a vyberte svůj model.
- Nyní klikněte na rozbalovací nabídku Modelový nakladač a vyberte AutoGPTQ pro ty, kteří používají model GTPQ a ctransformátory pro ty, kteří používají model GGML. Nakonec klikněte na Zatížení k načtení vašeho modelu.
- Chcete-li model použít, otevřete kartu Chat a začněte testovat model.
Gratulujeme, úspěšně jste nahráli Llama2 do svého místního počítače!
Vyzkoušejte jiné LLM
Nyní, když víte, jak spustit Llama 2 přímo na vašem počítači pomocí Text-Generation-WebUI, měli byste být schopni spouštět i další LLM kromě Llama. Stačí si pamatovat konvence pojmenování modelů a to, že na běžné počítače lze načíst pouze kvantované verze modelů (obvykle s přesností q4). Na HuggingFace je k dispozici mnoho kvantovaných LLM. Pokud chcete prozkoumat další modely, vyhledejte TheBloke v knihovně modelů HuggingFace a měli byste najít mnoho dostupných modelů.