Díky knihovně pandas je datová věda založená na pythonech snadnou jízdou. Je to oblíbená knihovna Pythonu pro čtení, slučování, třídění, čištění dat a další. Přestože se pandas snadno používá a aplikuje na datové sady, je třeba se naučit mnoho funkcí pro manipulaci s daty.

Můžete používat pandy, ale je velká šance, že je k řešení problémů souvisejících s daty nevyužíváte dostatečně. Zde je náš seznam cenných funkcí pand manipulujících s daty, které by měl znát každý datový vědec.

Nainstalujte pandy do svého virtuálního prostředí

Než budeme pokračovat, ujistěte se, že jste pandy nainstalovali do svého virtuálního prostředí pomocí pip:

pip install pandy

Po instalaci jej importujte pandy v horní části skriptu a můžeme pokračovat.

1. pandy. DataFrame

Používáš pandy. DataFrame() vytvořit DataFrame v pandách. Tuto funkci lze použít dvěma způsoby.

DataFrame můžete vytvořit po sloupcích předáním slovníku do pandy. DataFrame() funkce. Zde je každý klíč sloupcem, zatímco hodnoty jsou řádky:

importovat pandy
DataFrame = pandy. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tisknout (DataFrame)
instagram viewer

Další metodou je vytvoření DataFrame napříč řádky. Zde však oddělíte hodnoty (řádkové položky) od sloupců. Počet dat v každém seznamu (data řádku) musí také souhlasit s počtem sloupců.

importovat pandy
DataFrame = pandy. DataFrame([[1, 4, 5], [7, 19, 13]], columns= ["J", "K", "L"])
tisknout (DataFrame)

2. Číst z a zapisovat do Excelu nebo CSV v pandách

S pandami můžete číst nebo zapisovat do souborů Excel nebo CSV.

Čtení souborů Excel nebo CSV

Chcete-li číst soubor aplikace Excel:

#Nahraďte example.xlsx cestou vašeho Excel souboru
DataFrame = DataFrame.read_excel("example.xlsx")

Zde je návod, jak číst soubor CSV:

#Nahraďte example.csv cestou k souboru CSV
DataFrame = DataFrame.read_csv("example.csv")

Zápis do Excelu nebo CSV

Zápis do Excelu nebo CSV je známá operace s pandami. A je to užitečné pro ukládání nově vypočítaných tabulek do samostatných datových listů.

Chcete-li zapisovat do listu aplikace Excel:

DataFrame.to_excel("úplná_cesta_cílové_složky/název_souboru.xlsx")

Pokud chcete napsat do CSV:

DataFrame.to_csv("úplná_cesta_cílové_složky/název_souboru.csv")

Můžete také vypočítat centrální tendence každého sloupce v DataFrame pomocí pand.

Zde je návod, jak získat střední hodnotu každého sloupce:

DataFrame.mean()

Pro hodnotu mediánu nebo režimu nahraďte znamenat() s medián() nebo režim().

4. DataFrame.transform

pandy' DataFrame.transform() upravuje hodnoty DataFrame. Přijímá funkci jako argument.

Například níže uvedený kód vynásobí každou hodnotu v DataFrame třemi pomocí Pythonova lambda funkce:

DataFrame = DataFrame.transform (lambda y: y*3)
tisknout (DataFrame)

5. DataFrame.isnull

Tato funkce vrátí booleovskou hodnotu a označí všechny řádky obsahující hodnoty null jako Skutečný:

DataFrame.isnull()

Výsledek výše uvedeného kódu může být pro větší datové sady obtížně čitelný. Takže můžete použít isnull().sum() místo toho funkci. To vrátí souhrn všech chybějících hodnot pro každý sloupec:

DataFrame.isnull().sum()

6. Dataframe.info

The info() funkce je an zásadní operace pand. Místo toho vrátí souhrn chybějících hodnot pro každý sloupec:

DataFrame.info()

7. DataFrame.describe

The popsat() Funkce vám poskytuje souhrnnou statistiku DataFrame:

DataFrame.describe()

8. DataFrame.replace

Za použití DataFrame.replace() metodou v pandách můžete nahradit vybrané řádky jinými hodnotami.

Chcete-li například zaměnit neplatné řádky s Nan:

# Ujistěte se, že jste pip install numpy, aby to fungovalo
import numpy
importovat pandy
# Přidáním klíčového slova na místě a jeho nastavením na hodnotu True budou změny trvalé:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tisknout (DataFrame)

9. DataFrame.fillna

Tato funkce umožňuje vyplnit prázdné řádky konkrétní hodnotou. Můžete vyplnit všechny Nan řádky v datové sadě se střední hodnotou, například:

DataFrame.fillna (df.mean(), inplace = True)
tisknout (DataFrame)

Můžete být také specifický pro sloupec:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
tisknout (DataFrame)

10. DataFrame.dropna

The dropna() metoda odstraní všechny řádky obsahující hodnoty null:

DataFrame.dropna (inplace = True)
tisknout (DataFrame)

11. DataFrame.insert

Můžete použít pandy vložit() funkce pro přidání nového sloupce do DataFrame. Přijímá tři klíčová slova, název sloupce, seznam jeho údajů a jeho umístění, což je index sloupců.

Funguje to takto:

DataFrame.insert (sloupec = 'C', hodnota = [3, 4, 6, 7], loc=0)
tisknout (DataFrame)

Výše uvedený kód vloží nový sloupec na nulový index sloupce (stane se prvním sloupcem).

12. DataFrame.loc

Můžeš použít loc najít prvky v konkrétním indexu. Chcete-li zobrazit všechny položky ve třetím řádku, například:

DataFrame.loc[2]

13. DataFrame.pop

Tato funkce vám umožňuje odstranit zadaný sloupec z datového rámce pandas.

Přijímá an položka klíčové slovo, vrátí vyskakovaný sloupec a oddělí ho od zbytku DataFrame:

DataFrame.pop (item= 'název_sloupce')
tisknout (DataFrame)

14. DataFrame.max, min

Získání maximálních a minimálních hodnot pomocí pand je snadné:

DataFrame.min()

Výše uvedený kód vrací minimální hodnotu pro každý sloupec. Chcete-li získat maximum, vyměňte min s max.

15. DataFrame.join

The připojit se() funkce pandas vám umožňuje sloučit DataFrames s různými názvy sloupců. Můžete použít levé, pravé, vnitřní nebo vnější spojení. Pro levé spojení DataFrame se dvěma dalšími:

#Vlevo spojte delší sloupce s kratšími
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
tisknout (newDataFrame)

Chcete-li spojit DataFrames s podobnými názvy sloupců, můžete je odlišit přidáním přípony vlevo nebo vpravo. Udělejte to zahrnutím lsufix nebo rsufix klíčové slovo:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
tisknout (newDataFrame)

16. DataFrame.combine

The kombajn() Funkce se hodí pro sloučení dvou DataFrames obsahujících podobné názvy sloupců na základě nastavených kritérií. Přijímá a funkce klíčové slovo.

Chcete-li například sloučit dva DataFrame s podobnými názvy sloupců pouze na základě maximálních hodnot:

newDataFrame = df.combine (df2, numpy.minimum)
tisknout (newDataFrame)

Poznámka: Můžete také definovat funkci vlastního výběru a vložit numpy.minimálně.

17. DataFrame.astype

The astype() funkce změní datový typ konkrétního sloupce nebo DataFrame.

Chcete-li změnit všechny hodnoty v DataFrame na řetězec, například:

DataFrame.astype (str)

18. DataFrame.sum

The součet() funkce v pandách vrací součet hodnot v každém sloupci:

DataFrame.sum()

Můžete také najít kumulativní součet všech položek pomocí cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandy' pokles() Funkce odstraní určité řádky nebo sloupce v DataFrame. Chcete-li je použít, musíte zadat názvy sloupců nebo index řádků a osu.

Chcete-li odebrat konkrétní sloupce, například:

df.drop (columns=['colum1', 'column2'], axis=0)

Chcete-li například vypustit řádky na indexech 1, 3 a 4:

df.drop([1, 3, 4], osa=0)

20. DataFrame.corr

Chcete najít korelaci mezi celočíselnými nebo plovoucími sloupci? pandy vám toho mohou pomoci dosáhnout pomocí corr() funkce:

DataFrame.corr()

Výše uvedený kód vrací nový DataFrame obsahující korelační posloupnost mezi všemi sloupci typu integer nebo float.

21. DataFrame.add

The přidat() Funkce umožňuje přidat konkrétní číslo ke každé hodnotě v DataFrame. Funguje tak, že prochází přes DataFrame a pracuje na každé položce.

Příbuzný:Jak používat pro smyčky v Pythonu

Chcete-li přidat 20 ke každé z hodnot v konkrétním sloupci obsahujícím celá čísla nebo plovoucí čísla, například:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Stejně jako funkce sčítání můžete také odečíst číslo od každé hodnoty v DataFrame nebo konkrétním sloupci:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Toto je multiplikační verze sčítací funkce pand:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Podobně můžete každý datový bod ve sloupci nebo DataFrame rozdělit konkrétním číslem:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Za použití std() Funkce pandas vám také umožňuje vypočítat směrodatnou odchylku pro každý sloupec v DataFrame. Funguje tak, že prochází každý sloupec v sadě dat a vypočítává směrodatnou odchylku pro každý:

DataFrame.std()

26. DataFrame.sort_values

Hodnoty můžete také řadit vzestupně nebo sestupně na základě konkrétního sloupce. Chcete-li seřadit DataFrame v sestupném pořadí, například:

newDataFrame = DataFrame.sort_values ​​(podle = "colmun_name", sestupně = True)

27. DataFrame.melt

The tát() funkce v pandas převrátí sloupce v DataFrame na jednotlivé řádky. Je to jako odhalení anatomie DataFrame. Umožňuje vám tedy explicitně zobrazit hodnotu přiřazenou každému sloupci.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Tato funkce vrací celkový počet položek v každém sloupci:

DataFrame.count()

29. DataFrame.query

pandy' dotaz() umožňuje volat položky pomocí jejich indexového čísla. Chcete-li získat položky ve třetím řádku, například:

DataFrame.query('4') # Zavolejte dotaz na čtvrtý index

30. DataFrame.where

The kde() Funkce je pandas dotaz, který přijímá podmínku pro získání konkrétních hodnot ve sloupci. Chcete-li například získat všechny věkové skupiny do 30 let od an Stáří sloupec:

DataFrame.where (DataFrame['Věk'] < 30)

Výše uvedený kód vygeneruje DataFrame obsahující všechny věkové skupiny do 30 let, ale přiřadí Nan na řádky, které nesplňují podmínku.

Zacházejte s daty jako profík s pandami

pandas je pokladnicí funkcí a metod pro práci s malými až velkými datovými sadami pomocí Pythonu. Knihovna se také hodí pro čištění, ověřování a přípravu dat pro analýzu nebo strojové učení.

Udělat si čas na to, abyste si to osvojili, vám jako datovému vědci rozhodně usnadňuje život a stojí to za námahu. Takže klidně vyzvedněte všechny funkce, které zvládnete.

20 funkcí Pythonu, které byste měli znát

Standardní knihovna Pythonu obsahuje mnoho funkcí, které vám pomohou s vašimi programovacími úlohami. Přečtěte si o nejužitečnějších a vytvořte robustnější kód.

Přečtěte si další

PodíltweetE-mailem
Související témata
  • Programování
  • Krajta
  • Programování
  • databáze
O autorovi
Idowu Omisola (123 publikovaných článků)

Idowu je nadšený z jakékoli chytré technologie a produktivity. Ve volném čase si hraje s kódováním a když se nudí, přepne na šachovnici, ale také se rád jednou za čas odpoutá od rutiny. Jeho vášeň ukazovat lidem cestu kolem moderních technologií ho motivuje k dalšímu psaní.

Více od Idowu Omisola

Přihlaste se k odběru našeho newsletteru

Připojte se k našemu zpravodaji a získejte technické tipy, recenze, bezplatné e-knihy a exkluzivní nabídky!

Chcete-li se přihlásit k odběru, klikněte sem