Díky knihovně pandas je datová věda založená na pythonech snadnou jízdou. Je to oblíbená knihovna Pythonu pro čtení, slučování, třídění, čištění dat a další. Přestože se pandas snadno používá a aplikuje na datové sady, je třeba se naučit mnoho funkcí pro manipulaci s daty.
Můžete používat pandy, ale je velká šance, že je k řešení problémů souvisejících s daty nevyužíváte dostatečně. Zde je náš seznam cenných funkcí pand manipulujících s daty, které by měl znát každý datový vědec.
Nainstalujte pandy do svého virtuálního prostředí
Než budeme pokračovat, ujistěte se, že jste pandy nainstalovali do svého virtuálního prostředí pomocí pip:
pip install pandy
Po instalaci jej importujte pandy v horní části skriptu a můžeme pokračovat.
1. pandy. DataFrame
Používáš pandy. DataFrame() vytvořit DataFrame v pandách. Tuto funkci lze použít dvěma způsoby.
DataFrame můžete vytvořit po sloupcích předáním slovníku do pandy. DataFrame() funkce. Zde je každý klíč sloupcem, zatímco hodnoty jsou řádky:
importovat pandy
DataFrame = pandy. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tisknout (DataFrame)
Další metodou je vytvoření DataFrame napříč řádky. Zde však oddělíte hodnoty (řádkové položky) od sloupců. Počet dat v každém seznamu (data řádku) musí také souhlasit s počtem sloupců.
importovat pandy
DataFrame = pandy. DataFrame([[1, 4, 5], [7, 19, 13]], columns= ["J", "K", "L"])
tisknout (DataFrame)
2. Číst z a zapisovat do Excelu nebo CSV v pandách
S pandami můžete číst nebo zapisovat do souborů Excel nebo CSV.
Čtení souborů Excel nebo CSV
Chcete-li číst soubor aplikace Excel:
#Nahraďte example.xlsx cestou vašeho Excel souboru
DataFrame = DataFrame.read_excel("example.xlsx")
Zde je návod, jak číst soubor CSV:
#Nahraďte example.csv cestou k souboru CSV
DataFrame = DataFrame.read_csv("example.csv")
Zápis do Excelu nebo CSV
Zápis do Excelu nebo CSV je známá operace s pandami. A je to užitečné pro ukládání nově vypočítaných tabulek do samostatných datových listů.
Chcete-li zapisovat do listu aplikace Excel:
DataFrame.to_excel("úplná_cesta_cílové_složky/název_souboru.xlsx")
Pokud chcete napsat do CSV:
DataFrame.to_csv("úplná_cesta_cílové_složky/název_souboru.csv")
Můžete také vypočítat centrální tendence každého sloupce v DataFrame pomocí pand.
Zde je návod, jak získat střední hodnotu každého sloupce:
DataFrame.mean()
Pro hodnotu mediánu nebo režimu nahraďte znamenat() s medián() nebo režim().
4. DataFrame.transform
pandy' DataFrame.transform() upravuje hodnoty DataFrame. Přijímá funkci jako argument.
Například níže uvedený kód vynásobí každou hodnotu v DataFrame třemi pomocí Pythonova lambda funkce:
DataFrame = DataFrame.transform (lambda y: y*3)
tisknout (DataFrame)
5. DataFrame.isnull
Tato funkce vrátí booleovskou hodnotu a označí všechny řádky obsahující hodnoty null jako Skutečný:
DataFrame.isnull()
Výsledek výše uvedeného kódu může být pro větší datové sady obtížně čitelný. Takže můžete použít isnull().sum() místo toho funkci. To vrátí souhrn všech chybějících hodnot pro každý sloupec:
DataFrame.isnull().sum()
6. Dataframe.info
The info() funkce je an zásadní operace pand. Místo toho vrátí souhrn chybějících hodnot pro každý sloupec:
DataFrame.info()
7. DataFrame.describe
The popsat() Funkce vám poskytuje souhrnnou statistiku DataFrame:
DataFrame.describe()
8. DataFrame.replace
Za použití DataFrame.replace() metodou v pandách můžete nahradit vybrané řádky jinými hodnotami.
Chcete-li například zaměnit neplatné řádky s Nan:
# Ujistěte se, že jste pip install numpy, aby to fungovalo
import numpy
importovat pandy
# Přidáním klíčového slova na místě a jeho nastavením na hodnotu True budou změny trvalé:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tisknout (DataFrame)
9. DataFrame.fillna
Tato funkce umožňuje vyplnit prázdné řádky konkrétní hodnotou. Můžete vyplnit všechny Nan řádky v datové sadě se střední hodnotou, například:
DataFrame.fillna (df.mean(), inplace = True)
tisknout (DataFrame)
Můžete být také specifický pro sloupec:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
tisknout (DataFrame)
10. DataFrame.dropna
The dropna() metoda odstraní všechny řádky obsahující hodnoty null:
DataFrame.dropna (inplace = True)
tisknout (DataFrame)
11. DataFrame.insert
Můžete použít pandy vložit() funkce pro přidání nového sloupce do DataFrame. Přijímá tři klíčová slova, název sloupce, seznam jeho údajů a jeho umístění, což je index sloupců.
Funguje to takto:
DataFrame.insert (sloupec = 'C', hodnota = [3, 4, 6, 7], loc=0)
tisknout (DataFrame)
Výše uvedený kód vloží nový sloupec na nulový index sloupce (stane se prvním sloupcem).
12. DataFrame.loc
Můžeš použít loc najít prvky v konkrétním indexu. Chcete-li zobrazit všechny položky ve třetím řádku, například:
DataFrame.loc[2]
13. DataFrame.pop
Tato funkce vám umožňuje odstranit zadaný sloupec z datového rámce pandas.
Přijímá an položka klíčové slovo, vrátí vyskakovaný sloupec a oddělí ho od zbytku DataFrame:
DataFrame.pop (item= 'název_sloupce')
tisknout (DataFrame)
14. DataFrame.max, min
Získání maximálních a minimálních hodnot pomocí pand je snadné:
DataFrame.min()
Výše uvedený kód vrací minimální hodnotu pro každý sloupec. Chcete-li získat maximum, vyměňte min s max.
15. DataFrame.join
The připojit se() funkce pandas vám umožňuje sloučit DataFrames s různými názvy sloupců. Můžete použít levé, pravé, vnitřní nebo vnější spojení. Pro levé spojení DataFrame se dvěma dalšími:
#Vlevo spojte delší sloupce s kratšími
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
tisknout (newDataFrame)
Chcete-li spojit DataFrames s podobnými názvy sloupců, můžete je odlišit přidáním přípony vlevo nebo vpravo. Udělejte to zahrnutím lsufix nebo rsufix klíčové slovo:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
tisknout (newDataFrame)
16. DataFrame.combine
The kombajn() Funkce se hodí pro sloučení dvou DataFrames obsahujících podobné názvy sloupců na základě nastavených kritérií. Přijímá a funkce klíčové slovo.
Chcete-li například sloučit dva DataFrame s podobnými názvy sloupců pouze na základě maximálních hodnot:
newDataFrame = df.combine (df2, numpy.minimum)
tisknout (newDataFrame)
Poznámka: Můžete také definovat funkci vlastního výběru a vložit numpy.minimálně.
17. DataFrame.astype
The astype() funkce změní datový typ konkrétního sloupce nebo DataFrame.
Chcete-li změnit všechny hodnoty v DataFrame na řetězec, například:
DataFrame.astype (str)
18. DataFrame.sum
The součet() funkce v pandách vrací součet hodnot v každém sloupci:
DataFrame.sum()
Můžete také najít kumulativní součet všech položek pomocí cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandy' pokles() Funkce odstraní určité řádky nebo sloupce v DataFrame. Chcete-li je použít, musíte zadat názvy sloupců nebo index řádků a osu.
Chcete-li odebrat konkrétní sloupce, například:
df.drop (columns=['colum1', 'column2'], axis=0)
Chcete-li například vypustit řádky na indexech 1, 3 a 4:
df.drop([1, 3, 4], osa=0)
20. DataFrame.corr
Chcete najít korelaci mezi celočíselnými nebo plovoucími sloupci? pandy vám toho mohou pomoci dosáhnout pomocí corr() funkce:
DataFrame.corr()
Výše uvedený kód vrací nový DataFrame obsahující korelační posloupnost mezi všemi sloupci typu integer nebo float.
21. DataFrame.add
The přidat() Funkce umožňuje přidat konkrétní číslo ke každé hodnotě v DataFrame. Funguje tak, že prochází přes DataFrame a pracuje na každé položce.
Příbuzný:Jak používat pro smyčky v Pythonu
Chcete-li přidat 20 ke každé z hodnot v konkrétním sloupci obsahujícím celá čísla nebo plovoucí čísla, například:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Stejně jako funkce sčítání můžete také odečíst číslo od každé hodnoty v DataFrame nebo konkrétním sloupci:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Toto je multiplikační verze sčítací funkce pand:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Podobně můžete každý datový bod ve sloupci nebo DataFrame rozdělit konkrétním číslem:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Za použití std() Funkce pandas vám také umožňuje vypočítat směrodatnou odchylku pro každý sloupec v DataFrame. Funguje tak, že prochází každý sloupec v sadě dat a vypočítává směrodatnou odchylku pro každý:
DataFrame.std()
26. DataFrame.sort_values
Hodnoty můžete také řadit vzestupně nebo sestupně na základě konkrétního sloupce. Chcete-li seřadit DataFrame v sestupném pořadí, například:
newDataFrame = DataFrame.sort_values (podle = "colmun_name", sestupně = True)
27. DataFrame.melt
The tát() funkce v pandas převrátí sloupce v DataFrame na jednotlivé řádky. Je to jako odhalení anatomie DataFrame. Umožňuje vám tedy explicitně zobrazit hodnotu přiřazenou každému sloupci.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Tato funkce vrací celkový počet položek v každém sloupci:
DataFrame.count()
29. DataFrame.query
pandy' dotaz() umožňuje volat položky pomocí jejich indexového čísla. Chcete-li získat položky ve třetím řádku, například:
DataFrame.query('4') # Zavolejte dotaz na čtvrtý index
30. DataFrame.where
The kde() Funkce je pandas dotaz, který přijímá podmínku pro získání konkrétních hodnot ve sloupci. Chcete-li například získat všechny věkové skupiny do 30 let od an Stáří sloupec:
DataFrame.where (DataFrame['Věk'] < 30)
Výše uvedený kód vygeneruje DataFrame obsahující všechny věkové skupiny do 30 let, ale přiřadí Nan na řádky, které nesplňují podmínku.
Zacházejte s daty jako profík s pandami
pandas je pokladnicí funkcí a metod pro práci s malými až velkými datovými sadami pomocí Pythonu. Knihovna se také hodí pro čištění, ověřování a přípravu dat pro analýzu nebo strojové učení.
Udělat si čas na to, abyste si to osvojili, vám jako datovému vědci rozhodně usnadňuje život a stojí to za námahu. Takže klidně vyzvedněte všechny funkce, které zvládnete.
Standardní knihovna Pythonu obsahuje mnoho funkcí, které vám pomohou s vašimi programovacími úlohami. Přečtěte si o nejužitečnějších a vytvořte robustnější kód.
Přečtěte si další
- Programování
- Krajta
- Programování
- databáze
Idowu je nadšený z jakékoli chytré technologie a produktivity. Ve volném čase si hraje s kódováním a když se nudí, přepne na šachovnici, ale také se rád jednou za čas odpoutá od rutiny. Jeho vášeň ukazovat lidem cestu kolem moderních technologií ho motivuje k dalšímu psaní.
Přihlaste se k odběru našeho newsletteru
Připojte se k našemu zpravodaji a získejte technické tipy, recenze, bezplatné e-knihy a exkluzivní nabídky!
Chcete-li se přihlásit k odběru, klikněte sem