Využijte knihovnu PandasAI Python k využití síly umělé inteligence a velkých jazykových modelů k provádění úloh analýzy dat.
Pandas je nejrozšířenější knihovnou pro manipulaci s datovými sadami a datovými rámci. To je již dlouhou dobu normou. Ale s pokrokem v umělé inteligenci je vyvinuta nová open-source knihovna nazvaná PandasAI, která do Pandas přidává generativní schopnosti umělé inteligence.
PandasAI nenahrazuje Pandy. Místo toho poskytuje své generativní schopnosti umělé inteligence. Tímto způsobem můžete provádět analýzu dat chatováním s PandasAI. Poté abstrahuje, co se děje na pozadí, a poskytuje vám výstup vašeho dotazu.
Instalace PandasAI
PandasAI je k dispozici prostřednictvím PyPI (Python Package Index). Vytvořte nové virtuální prostředí pokud používáte místní IDE. Pak použijte správce balíčků pip jej nainstalovat.
pip install pandasai
Pokud používáte Google Colab, můžete narazit na chybu konfliktu závislostí podobnou té, která je uvedena níže.
Neupgradujte verzi IPythonu. Stačí restartovat běhové prostředí a znovu spustit blok kódu. Tím se problém vyřeší.
Úplný zdrojový kód je k dispozici v a úložiště GitHub.
Pochopení ukázkové datové sady
Ukázková datová sada, se kterou budete manipulovat pomocí PandasAI, je datová sada California Housing Prices od Kaggle. Tento datový soubor obsahuje informace o bydlení ze sčítání lidu v roce 1990 v Kalifornii. Má deset sloupců, které poskytují statistiky o těchto domech. Datová karta, která vám pomůže dozvědět se více o tomto datovém souboru, je k dispozici na Kaggle. Níže je prvních pět řádků datové sady.
Každý sloupec představuje jednu statistiku domu.
Připojení PandasAI k velkému jazykovému modelu
Pro připojení PandasAI k a velký jazykový model (LLM) jako u OpenAI potřebujete přístup k jeho API klíči. Chcete-li jej získat, přejděte na Platforma OpenAI. Poté se přihlaste ke svému účtu. Vybrat API na stránce možností, která se zobrazí dále.
Poté klikněte na svůj profil a vyberte Zobrazit klíče API volba. Na stránce, která se zobrazí jako další klikněte Vytvořte nový tajný klíč knoflík. Nakonec pojmenujte svůj API klíč.
OpenAI vygeneruje váš klíč API. Zkopírujte jej, jak jej budete potřebovat při propojování PandasAI s OpenAI. Ujistěte se, že klíč držíte v tajnosti, protože kdokoli, kdo k němu má přístup, může vaším jménem volat do OpenAI. OpenAI pak bude z vašeho účtu účtovat hovory.
Nyní, když máte klíč API, vytvořte nový skript Python a vložte níže uvedený kód. Tento kód nebudete muset měnit, protože většinu času na něm budete stavět.
import pandy tak jako pd
z pandasai import PandasAI# Nahraďte svou datovou sadou nebo datovým rámcem
df = pd.read_csv("/content/housing.csv")# Vytvořte si LLM
z pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="váš token API")
pandas_ai = PandasAI(llm)
Výše uvedený kód importuje PandasAI i Pandas. Poté načte datovou sadu. Nakonec vytvoří instanci OpenAI LLM.
Nyní jste připraveni konverzovat se svými daty.
Provádění jednoduchých úkolů pomocí PandasAI
Chcete-li se dotazovat na svá data, předejte svůj datový rámec a výzvu do instance třídy PandasAI. Začněte vytištěním prvních pěti řádků datové sady.
pandas_ai (df, prompt="Jakých je prvních pět řádků datové sady?")
Výstup výše uvedené výzvy je následující:
Tento výstup je totožný s výstupem z přehledu datové sady dříve. To ukazuje, že PandasAI poskytuje správné výsledky a je spolehlivý.
Poté zkontrolujte počet sloupců přítomných ve vaší datové sadě.
pandas_ai (df, prompt=„Kolik sloupců je v datové sadě? ')
Vrátí 10, což je správný počet sloupců v datové sadě California Housing.
Kontrola, zda v datové sadě nechybí hodnoty.
pandas_ai (df, prompt="Chybí v datové sadě nějaké hodnoty?")
PandasAI vrátí, že celkem_ložnic sloupec má 207 chybějících hodnot, což je opět správně.
Existuje mnoho jednoduchých úkolů, kterých můžete dosáhnout pomocí PandasAI, nejste omezeni na ty výše.
Provádění složitých dotazů pomocí PandasAI
PandasAI nepodporuje pouze jednoduché úkoly. Můžete jej také použít k provádění složitých dotazů na datovou sadu. Například v souboru dat o bydlení, pokud chcete určit počet domů, které se nacházejí na ostrov, mají hodnotu více než 100 000 dolarů a mají více než 10 pokojů, můžete použít výzvu níže.
pandas_ai (df, prompt= "Kolik domů má hodnotu větší než 100 000,"
"jste na ostrově a celkový počet ložnic je více než 10?")
Správný výstup je pět. Toto je stejný výsledek jako výstup PandasAI.
Zápis a ladění složitých dotazů může datovému analytikovi nějakou dobu trvat. Výše uvedená výzva vyžaduje pouze dva řádky přirozeného jazyka ke splnění stejného úkolu. Stačí mít na paměti, čeho přesně chcete dosáhnout, a PandasAI se postará o zbytek.
Kreslení grafů pomocí PandasAI
Grafy jsou důležitou součástí jakéhokoli procesu analýzy dat. Pomáhá datovým analytikům vizualizovat data způsobem přátelským pro člověka. PandasAI má také funkci kreslení grafů. Stačí předat datový rámec a instrukce.
Začněte vytvořením histogramu pro každý sloupec v datové sadě. To vám pomůže vizualizovat distribuci proměnných.
pandas_ai (df, prompt= "Vykreslit histogram pro každý sloupec v datové sadě")
Výstup je následující:
PandasAI dokázal nakreslit histogram všech sloupců, aniž by musel do výzvy zadávat jejich jména.
PandasAI může také vykreslovat grafy, aniž byste mu výslovně řekli, který graf má použít. Můžete například chtít zjistit korelaci dat v datovém souboru bydlení. Chcete-li toho dosáhnout, můžete předat následující výzvu:
pandas_ai (df, prompt= "Vykreslit korelaci v datové sadě")
PandasAI vykresluje korelační matici, jak je uvedeno níže:
Knihovna vybere teplotní mapu a vynese korelační matici.
Předání více datových rámců do instance PandasAI
Práce s více datovými rámci může být složitá. Zejména pro člověka, který je v analýze dat nováčkem. PandasAI překlenuje tuto mezeru, protože vše, co musíte udělat, je předat oba datové rámce a začít používat výzvy k manipulaci s daty.
Vytvořte dva datové rámce pomocí Pandas.
zaměstnanecká_data = {
'EmployeeID': [1, 2, 3, 4, 5],
'Název': ['John', 'emma', 'Liam', 'Olivia', 'William'],
'Oddělení': ['HR', 'Odbyt', 'TO', 'Marketing', 'Finance']
}platová_data = {
'EmployeeID': [1, 2, 3, 4, 5],
'plat': [5000, 6000, 4500, 7000, 5500]
}
zaměstnanci_df = pd. DataFrame (employees_data)
platy_df = pd. DataFrame (platy_data)
PandasAI můžete položit otázku, která se týká obou datových rámců. Musíte pouze předat oba datové rámce do instance PandasAI.
pandas_ai([employees_df, platy_df], "Který zaměstnanec má největší plat?")
Vrací se Olivie což je opět správná odpověď.
Provádění analýzy dat nebylo nikdy jednodušší, PandasAI vám umožňuje chatovat s vašimi daty a snadno je analyzovat.
Pochopení technologie, která pohání PandasAI
PandasAI zjednodušuje proces analýzy dat a šetří tak datovým analytikům spoustu času. Ale abstrahuje to, co se děje na pozadí. Musíte se seznámit s generativní AI, abyste měli přehled o tom, jak PandasAI funguje pod kapotou. To vám také pomůže držet krok s nejnovějšími inovacemi v doméně generativní umělé inteligence.