Chcete poskytnout ChatGPT svá vlastní data? Zde je krok za krokem, jak to udělat!

ChatGPT, který poskytuje technologii GPT ve výkonném a snadno použitelném chatbotu, se stal celosvětově nejoblíbenějším nástrojem umělé inteligence. Mnoho lidí používá ChatGPT k poskytování poutavých konverzací, odpovídání na dotazy, nabízí kreativní návrhy a pomáhá při kódování a psaní. Služba ChatGPT je však omezená, protože nemůžete ukládat svá data pro dlouhodobé osobní použití, a její limit pro znalostní data v září 2021.

Jako řešení můžeme použít API OpenAI a LangChain, abychom ChatGPT poskytli vlastní data a aktualizované informace za rok 2021, abychom vytvořili vlastní instanci ChatGPT.

Proč poskytovat ChatGPT s vlastními daty?

Zásobování ChatGPT vlastními daty a poskytování aktualizovaných informací po datu ukončení znalostí poskytuje několik výhod oproti pouhému používání ChatGPT jako obvykle. Zde je několik z nich:

  • Personalizované interakce: Poskytnutím vlastních dat ChatGPT mohou uživatelé vytvořit přizpůsobenější prostředí. Model lze trénovat na konkrétních souborech dat relevantních pro jednotlivé uživatele nebo organizace, což vede k reakcím přizpůsobeným jejich jedinečným potřebám a preferencím.
    instagram viewer
  • Odbornost pro konkrétní domény: Vlastní integrace dat umožňuje ChatGPT specializovat se na konkrétní domény nebo odvětví. Může být vyškolen na znalostech, terminologii a trendech specifických pro dané odvětví, což umožňuje přesnější a pronikavější reakce v těchto konkrétních oblastech.
  • Aktuální a přesné informace: Přístup k aktualizovaným informacím zajišťuje, že ChatGPT zůstane aktuální s nejnovějším vývojem a znalostmi. Může poskytovat přesné odpovědi na základě nedávných událostí, zpráv nebo výzkumu, což z něj činí spolehlivější zdroj informací.

Nyní, když rozumíte důležitosti poskytování vlastních dat ChatGPT, zde je krok za krokem, jak to udělat na místním počítači.

Krok 1: Nainstalujte a stáhněte software a předem připravený skript

Vezměte prosím na vědomí, že následující pokyny platí pro počítač se systémem Windows 10 nebo Windows 11.

Chcete-li ChatGPT poskytnout vlastní data, budete si muset nainstalovat a stáhnout nejnovější Python3, Git, Microsoft C++ a skript načítání ChatGPT z GitHubu. Pokud již máte na svém počítači nainstalovaný nějaký software, ujistěte se, že je aktualizován na nejnovější verzi, abyste se vyhnuli případným škytavkám během procesu.

Začněte instalací:

  • Stažení:Python3 (Volný, uvolnit)
  • Stažení:Git (Volný, uvolnit)
  • Stažení:Microsoft Visual Build Tools (Volný, uvolnit)

Poznámky k instalaci Python3 a Microsoft C++

Při instalaci Pythonu3 se ujistěte, že jste zaškrtli Přidejte python.exe do PATH možnost před kliknutím Nainstalovat nyní. To je důležité, protože vám to umožňuje přístup k Pythonu v libovolném adresáři na vašem počítači.

Při instalaci Microsoft C++ budete chtít nainstalovat Nástroje pro sestavení Microsoft Visual Studio První. Po instalaci můžete zaškrtnout Vývoj desktopů v C++ možnost a klikněte Nainstalujte se všemi volitelnými nástroji automaticky zaškrtnutými na pravém postranním panelu.

Nyní, když jste nainstalovali nejnovější verze Python3, Git a Microsoft C++, můžete si stáhnout skript Python a snadno se dotazovat na vlastní místní data.

Stažení: Skript pro vyhledávání ChatGPT (Volný, uvolnit)

Chcete-li skript stáhnout, klikněte na Kód, pak vyberte Stáhnout ZIP. To by mělo stáhnout skript Python do vašeho výchozího nebo vybraného adresáře.

Po stažení můžeme nyní nastavit místní prostředí.

Krok 2: Nastavte místní prostředí

Chcete-li nastavit prostředí, budete muset otevřít terminál ve složce chatgpt-retrieval-main, kterou jste si stáhli. Chcete-li to provést, otevřete chatgpt-retrieval-main složku, klepněte pravým tlačítkem a vyberte Otevřít v Terminálu.

Jakmile je terminál otevřený, zkopírujte a vložte tento příkaz:

pip install langchain openai chromadb tiktoken nestrukturovaný

Tento příkaz používá správce balíčků Pythonu vytvářet a spravovat virtuální prostředí Pythonu potřeboval.

Po vytvoření virtuálního prostředí potřebujeme dodat OpenAI API klíč pro přístup k jejich službám. Nejprve budeme muset vygenerovat klíč API z Stránky klíčů API OpenAI kliknutím na Vytvořte nový tajný klíč, přidejte název klíče a poté stiskněte Vytvořit tlačítko tajného klíče.

Budete mít k dispozici řetězec znaků. Toto je váš klíč OpenAI API. Zkopírujte jej kliknutím na ikonu kopírování na straně klíče API. Mějte na paměti, že tento klíč API by měl zůstat v tajnosti. Nesdílejte jej s ostatními, pokud opravdu nemáte v úmyslu, aby jej používali s vámi.

Po zkopírování se vraťte do hlavní složky chatgpt-retrieval-main a otevřete konstanty pomocí poznámkový blok. Nyní nahraďte zástupný symbol svým klíčem API. Nezapomeňte soubor uložit!

Nyní, když jste úspěšně nastavili své virtuální prostředí a přidali klíč OpenAI API jako proměnnou prostředí. Nyní můžete poskytnout svá vlastní data ChatGPT.

Krok 3: Přidání vlastních dat

Chcete-li přidat vlastní data, umístěte všechna svá vlastní textová data do data složku v rámci chatgpt-retrieval-main. Formát textových dat může být ve formě PDF, TXT nebo DOC.

Jak můžete vidět z výše uvedeného snímku obrazovky, přidal jsem textový soubor obsahující vytvořený osobní rozvrh, článek, na který jsem napsal Instinct Accelerators od AMDa dokument PDF.

Krok 4: Dotazování ChatGPT přes terminál

Skript Python nám umožňuje dotazovat se na data z vlastních dat, která jsme přidali do datové složky a na internet. Jinými slovy, budete mít přístup k obvyklému backendu ChatGPT a všem datům uloženým lokálně v datové složce.

Chcete-li použít skript, spusťte python chatgpt.py skript a poté přidejte svou otázku nebo dotaz jako argument.

krajta chatgpt.py "TVÁ OTÁZKA"

Ujistěte se, že vaše otázky jsou v uvozovkách.

Abych otestoval, zda jsme úspěšně naplnili ChatGPT našimi daty, položím osobní otázku týkající se Osobní Sched.txt soubor.

Fungovalo to! To znamená, že ChatGPT byl schopen přečíst dříve poskytnutý Personal Sched.txt. Nyní se podívejme, zda jsme úspěšně nakrmili ChatGPT informacemi, které kvůli datu ukončení znalostí nezná.

Jak můžete vidět, správně popsal AMD Instinct MI250x, který byl vydán po datu ukončení znalostí ChatGPT -3.

Omezení Custom ChatGPT

Přestože dodávání vlastních dat GPT-3.5 otevírá více způsobů použití a používání LLM, existuje několik nevýhod a omezení.

Nejprve musíte poskytnout všechna data sami. Stále máte přístup ke všem znalostem GPT-3.5 až do data ukončení znalostí; musíte však poskytnout všechna další data. To znamená, že pokud chcete, aby váš místní model znal určité téma na internetu, které GPT-3.5 ještě nezná, budete muset jít na internet a seškrábat data sami a uložit je jako text do datové složky chatgpt-retrieval-main.

Dalším problémem je, že dotazování ChatGPT tímto způsobem trvá déle, než se načte ve srovnání s přímým dotazem na ChatGPT.

A konečně, jediný aktuálně dostupný model je GPT-3.5 Turbo. Takže i když máte přístup ke GPT-4, nebudete jej moci použít k napájení vlastní instance ChatGPT.

Vlastní ChatGPT je úžasný, ale omezený

Poskytování vlastních dat ChatGPT je účinný způsob, jak z modelu získat více. Touto metodou můžete model naplnit libovolnými textovými daty, která chcete, a vyzvat jej stejně jako běžný ChatGPT, i když s určitými omezeními. To se však v budoucnu změní, protože bude snazší integrovat naše data s LLM spolu s přístupem k nejnovějšímu modelu GPT-4.