Chcete-li analyzovat datovou sadu, musíte nejprve porozumět datům. Někdy nemusíte mít žádnou znalost datové sady, což vám brání získat z ní maximum. Jako datový analytik můžete použít Exploratory data analysis (EDA) k získání znalostí o vaší datové sadě před hloubkovou analýzou.
Průzkumná analýza dat (EDA) zkoumá soubor dat, aby získala smysluplné poznatky. Proces provádění EDA zahrnuje dotazování na informace o struktuře a obsahu datové sady.
Instalace balíčku Gota
Balíček Gota je nejoblíbenější pro analýza dat v Go; je to jako Balíček Python Pandas ale pro Go. Balíček Gota obsahuje mnoho metod pro analýzu datových sad a čtení formátů JSON, CSV a HTML.
Spusťte tento příkaz na svém terminálu v adresáři, kde jste inicializovali soubor modulu Go:
jít get -u github.com/jít-gota/gota
Příkaz nainstaluje Gota do místního adresáře, připravený na import balíčku, abyste jej mohli používat.
Stejně jako Pandas, i Gota podporuje operace se sériemi a datovými snímky. V balíčku Gota jsou dva dílčí balíčky: řada a balíček dataframe. V závislosti na vašich potřebách můžete importovat jeden nebo oba.
import (
"github.com/jít-gota/gota/series"
"github.com/jít-gota/gota/dataframe"
)
Čtení datové sady pomocí balíčku Gota
Můžete použít libovolný soubor CSV, ale následující příklady ukazují výsledky z datovou sadu Kaggle, obsahující údaje o ceně notebooku.
Gota vám umožňuje číst formáty souborů CSV, JSON a HTML a vytvářet datové rámce pomocí Přečtěte si CSV, ReadJSON, a Přečtěte si HTML metody. Takto načtete soubor CSV do objektu dataframe:
soubor, chyba := os. Otevřít("/cesta/k/csv-soubor.csv")
-li chyba!= nula {
fmt. Println("chyba při otevření souboru")
}
dataFrame := datový rámec. ReadCSV(soubor)
fmt. Println (dataFrame)
Můžete použít OTEVŘENO metoda os balíček pro otevření souboru CSV. Metoda ReadCSV načte objekt souboru a vrátí objekt dataframe.
Při tisku tohoto objektu je výstup v tabulkovém formátu. S objektem datového rámce můžete dále manipulovat pomocí různých metod, které Gota poskytuje.
Objekt vytiskne pouze některé sloupce, pokud má datová sada více než nastavenou hodnotu.
Načítání dimenze datové sady
Rozměry datového rámce jsou počet řádků a sloupců, které obsahuje. Tyto rozměry můžete načíst pomocí Tlumené metoda objektu dataframe.
var řádky, sloupce = dataFrame. Dims()
Nahraďte jednu z proměnných podtržítkem, abyste získali pouze druhou dimenzi. Můžete se také dotazovat na počet řádků a sloupců jednotlivě pomocí Nrow a Ncol metody.
var řádky = dataFrame. Nrow()
var sloupce = dataFrame. Ncol()
Načítání datových typů sloupců
Abyste mohli datovou sadu analyzovat, musíte znát složené datové typy ve sloupcích datové sady. Můžete je získat pomocí Typy metoda vašeho objektu datového rámce:
var typy = dataFrame. Typy()
fmt. Println (typy)
Metoda Types vrací řez obsahující datové typy sloupce:
Načítání názvů sloupců
K výběru konkrétních sloupců pro operace budete potřebovat názvy sloupců. Můžete použít Jména způsob, jak je získat.
var columnNames := dataFrame. jména()
fmt. Println (názvy sloupců)
Metoda Names vrací část názvů sloupců.
Kontrola chybějících hodnot
Můžete mít datovou sadu, která obsahuje nulové nebo nečíselné hodnoty. Tyto hodnoty můžete zkontrolovat pomocí HasNaN a IsNaN metody objektu série:
aCol := dataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()
HasNan zkontroluje, zda sloupec obsahuje prvky null. IsNaN vrací část booleanů představující, zda je každá hodnota ve sloupci číslo.
Provádění popisné statistické analýzy
Popisná statistická analýza vám pomůže pochopit rozložení číselných sloupců. Za použití Popsat můžete vygenerovat popisnou statistickou analýzu vaší datové sady:
description := dataFrame. Popsat()
fmt. Println (popis)
Metoda Describe vrací metriky, jako je průměr, standardní odchylka a maximální hodnoty sloupců v datové sadě. Shrnuje je ve formě tabulky.
Můžete být také konkrétní a zaměřit se na sloupce a metriky výběrem konkrétního sloupce a poté dotazem na požadovanou metriku. Nejprve byste měli načíst řadu představující konkrétní sloupec a poté použít jeho metody, jako je tento:
aCol := dataFrame. Col("display_size")
var průměr = aKol. Znamenat()
var medián = aKol. Medián()
var minimum = aKol. min()
var standardDeviation = aCol. StdDev()
var maximum = aKol. Max()
var kvantily25 = aKol. Kvantil (25.0)
Tyto metody odrážejí výsledky z deskriptivní statistické analýzy, kterou Describe provádí.
Načítání prvků ve sloupci
Jedním z posledních úkolů, které budete chtít provést, je zkontrolovat hodnoty ve sloupci, abyste získali obecný přehled. Můžete použít Evidence metoda pro zobrazení hodnot sloupce.
aCol := dataFrame. Col("značka")
fmt. Println (aCol. Evidence())
Tato metoda vrátí část řetězců obsahující hodnoty ve vybraném sloupci:
Export datového rámce Gota do souboru
Pokud se rozhodnete jít dále a použít balíček Gota pro úplnou analýzu dat, budete muset data uložit do souborů. Můžete použít Napište CSV a Napište JSON metody dataframe pro export souborů. Metody přijímají soubor, který vytvoříte pomocí os balíček Vytvořit metoda.
Zde je návod, jak můžete exportovat datový rámec pomocí balíčku Gota.
dataFrame := datový rámec. ReadCSV(soubor)
outputFile, err := os. Create("output.csv")-li chyba!= nula {
log. fatální (chyba)
}err = dataFrame. WriteCSV(outputFile)
-li chyba!= nula {
log. Fatalln("Došlo k chybě při zápisu obsahu datového rámce do souboru")
}
The dataFrame proměnná je reprezentace datového rámce. Když použijete Vytvořit metoda os balíček, vytvoří nový prázdný soubor se zadaným názvem a vrátí soubor. Metoda WriteCSV vezme instanci souboru a vrátí chybu nebo nula pokud není chyba.
Průzkumná analýza dat je důležitá
Porozumění datům a datovým sadám je pro datové analytiky a specialisty na strojové učení zásadní. Je to kritická operace v jejich pracovním cyklu a průzkumná analýza dat je jednou z technik, které k tomu používají.
V balíčku Gota je toho víc. Můžete ji použít pro různé funkce pro boj s daty stejným způsobem, jako byste použili knihovnu Python Pandas pro analýzu dat. Gota však nepodporuje tolik funkcí jako Pandas.