Nedostatek dat je často jednou z hlavních překážek většiny projektů datové vědy. Vědět, jak sbírat data pro jakýkoli projekt, do kterého se chcete pustit, je však důležitá dovednost, kterou musíte získat jako datový vědec.
Vědci v oblasti dat a inženýři strojového učení nyní používají moderní techniky sběru dat k získání více dat pro tréninkové algoritmy. Pokud plánujete zahájit svůj první projekt datové vědy nebo strojového učení, musíte být schopni získat také data.
Jak si můžete tento proces usnadnit? Pojďme se podívat na některé moderní techniky, které můžete použít ke sběru dat.
Proč potřebujete více dat pro svůj projekt Data Science
Algoritmy strojového učení závisí na datech, aby byly přesnější, přesnější a prediktivnější. Tyto algoritmy jsou trénovány pomocí sad dat. Výcvikový proces je něco jako naučit batole poprvé pojmenovat předmět a poté mu umožnit identifikovat jej samostatně, až ho uvidí.
Lidským bytostem stačí k rozpoznání nového objektu jen několik příkladů. Pro stroj to tak není, protože k seznámení se s objektem potřebuje stovky nebo tisíce podobných příkladů.
Tyto příklady nebo cvičné objekty musí přicházet ve formě dat. Vyhrazený algoritmus strojového učení poté prochází touto sadou dat, která se nazývá tréninková sada - a dozví se o ní více, aby byla přesnější.
To znamená, že pokud nedodáte dostatek dat k trénování algoritmu, možná nebudete mít na konci projektu správný výsledek, protože stroj nemá dostatek dat, ze kterých by se mohl učit.
Je tedy nutné získat adekvátní data ke zlepšení přesnosti vašeho výsledku. Podívejme se na některé moderní strategie, které můžete použít k dosažení tohoto cíle níže.
1. Škrábání dat přímo z webové stránky
Web scraping je automatizovaný způsob získávání dat z webu. V nejzákladnější podobě může škrábání webu zahrnovat kopírování a vkládání prvků na webu do místního souboru.
Webové škrábání však zahrnuje také psaní speciálních skriptů nebo použití speciálních nástrojů k přímému škrábání dat z webové stránky. Mohlo by to také zahrnovat podrobnější sběr dat pomocí Aplikační programovací rozhraní (API) jako Serpstack.
S API serpstack můžete snadno shromažďovat informace ze stránek s výsledky Google a dalších vyhledávačů.
Ačkoli někteří lidé věří, že škrábání webu by mohlo vést ke ztrátě duševního vlastnictví, může k tomu dojít pouze tehdy, když to lidé dělají zlomyslně. Web scraping je legální a pomáhá podnikům lépe se rozhodovat shromažďováním veřejných informací o jejich zákaznících a konkurencích.
Příbuzný: Co je to škrábání na webu? Jak sbírat data z webových stránek
Můžete například napsat skript, který shromažďuje data z online obchodů za účelem porovnání cen a dostupnosti. I když to může být trochu techničtější, můžete na webu sbírat také surová média, jako jsou zvukové soubory a obrázky.
Podívejte se na ukázkový kód níže a podívejte se na škrábání webu pomocí Pythonu beautifulsoup4 Knihovna parserů HTML.
z importu bs4 BeautifulSoup
z urllib.request import urlopen
url = "Sem zadejte úplnou adresu URL cílové webové stránky"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
print (webData.get_text ())
Před spuštěním ukázkového kódu budete muset nainstalovat knihovnu. Vytvořte virtuální prostředí z příkazového řádku a nainstalujte knihovnu spuštěním pip nainstalujte beautifulsoup4.
2. Prostřednictvím webových formulářů
Pro sběr dat můžete také využít online formuláře. To je nejužitečnější, pokud máte cílovou skupinu lidí, od kterých chcete shromažďovat data.
Nevýhodou odesílání webových formulářů je, že nemusíte shromažďovat tolik dat, kolik chcete. Je to docela užitečné pro malé datové vědecké projekty nebo výukové programy, ale můžete narazit na omezení, když se snažíte oslovit velké množství anonymních lidí.
Ačkoli existují placené online služby sběru dat, nedoporučují se pro jednotlivce, protože jsou většinou příliš drahé - kromě případů, kdy vám nevadí utratit za projekt nějaké peníze.
Pro sběr dat od lidí existují různé webové formuláře. Jedním z nich je Google Forms, ke kterému můžete přejít na forms.google.com. Můžeš používat Google Forms ke shromažďování kontaktních údajů, demografické údaje a další osobní údaje.
Jakmile vytvoříte formulář, stačí odeslat odkaz cílové skupině poštou, SMS nebo jakýmkoli jiným dostupným způsobem.
Formuláře Google jsou však pouze jedním příkladem populárních webových formulářů. Existuje mnoho alternativ, které také dělají vynikající úlohy sběru dat.
Údaje můžete také shromažďovat prostřednictvím sociálních médií, jako je Facebook, LinkedIn, Instagram a Twitter. Získávání dat ze sociálních médií je o něco techničtější než jakákoli jiná metoda. Je to zcela automatizované a zahrnuje použití různých nástrojů API.
Ze sociálních médií může být obtížné získat data, protože jsou relativně neorganizovaná a je jich obrovské množství. Při správném uspořádání může být tento typ datové sady užitečný v projektech datové vědy zahrnujících analýzu online sentimentů, analýzu tržních trendů a online branding.
Například Twitter je příkladem zdroje dat sociálních médií, kde můžete s jeho pomocí shromáždit velké množství datových sad tweepy Balíček API Pythonu, který si můžete nainstalovat s pip nainstalovat tweepy příkaz.
Pro základní příklad blok kódu pro extrakci tweetů na domovské stránce Twitteru vypadá takto:
importovat tweepy
import re
myAuth = tweepy. OAuthHandler (zde vložte spotřební klíč, zde vložte klíč spotřebního tajemství)
auth.set_access_token (zde vložit access_token, zde vložit access_token_secret)
authenticate = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
pro cíle v target_tweet:
tisk (cíle.text)
Můžete navštívit docs.tweepy.org webové stránky pro přístup k tweepy dokumentaci pro další podrobnosti o tom, jak ji používat. Chcete-li používat API služby Twitter, musíte požádat o účet vývojáře tím, že přejdete na developer.twitter.com webová stránka.
Facebook je další výkonná platforma sociálních médií pro shromažďování údajů. Používá speciální koncový bod API, který se nazývá Facebook Graph API. Toto API umožňuje vývojářům shromažďovat údaje o chování konkrétních uživatelů na platformě Facebook. Dokumentaci k rozhraní Facebook Graph API najdete na adrese developers.facebook.com dozvědět se o tom více.
Podrobné vysvětlení sběru dat ze sociálních médií pomocí API je nad rámec tohoto článku. Pokud vás zajímá více, můžete si prohlédnout dokumentaci každé platformy, kde získáte podrobné informace o nich.
Kromě psaní skriptů pro připojení ke koncovému bodu API jsou data sociálních médií shromažďování nástrojů třetích stran jako Expert na škrábání a mnoho dalších je také k dispozici. Většina těchto webových nástrojů však má svou cenu.
4. Shromažďování již existujících datových sad z oficiálních zdrojů
Již existující datové sady můžete shromažďovat také z autoritativních zdrojů. Tato metoda zahrnuje návštěvu oficiálních databází a stahování ověřených datových sad z nich. Na rozdíl od škrábání webu a dalších možností je tato možnost rychlejší a vyžaduje malé nebo žádné technické znalosti.
Datové sady na těchto typech zdrojů jsou obvykle k dispozici ve formátech CSV, JSON, HTML nebo Excel. Některé příklady autoritativních zdrojů dat jsou Světová banka, UNdataa několik dalších.
Některé zdroje dat mohou aktuální data učinit soukromými, aby k nim veřejnost neměla přístup. Jejich archivy jsou však často k dispozici ke stažení.
Další oficiální zdroje datových sad pro váš projekt strojového učení
Tento seznam by vám měl poskytnout dobrý výchozí bod pro získání různých typů dat pro práci ve vašich projektech.
- Portál otevřených dat EU
- Kaggle datové sady
- Hledání datové sady Google
- Datové centrum
- Registr otevřených dat na AWS
- Evropská vládní agentura - Data a mapy
- Otevřená data Microsoft Research
- Úžasné úložiště veřejných datových sad na GitHubu
- Data. Gov: Domov otevřených dat vlády USA
Zdrojů je mnohem více a pečlivé vyhledávání vás odmění daty, která jsou ideální pro vaše vlastní datové vědecké projekty.
Zkombinujte tyto moderní techniky pro lepší výsledky
Sběr dat může být zdlouhavý, pokud jsou dostupné nástroje pro daný úkol omezené nebo těžko srozumitelné. Zatímco starší a konvenční metody stále fungují dobře a v některých případech jsou nevyhnutelné, moderní metody jsou rychlejší a spolehlivější.
Spíše než spoléhání se na jedinou metodu má kombinace těchto moderních způsobů shromažďování dat potenciál přinést lepší výsledky.
Chcete se dostat do analýzy dat? Zde je několik nástrojů, které byste se měli naučit.
- Programování
- Krajta
- Velká data
- Strojové učení
- Sběr dat
- Analýza dat
Idowu je vášnivý pro cokoli inteligentního a produktivního. Ve svém volném čase si hraje s kódováním a když se nudí, přepne se na šachovnici, ale také rád občas vybočuje z rutiny. Jeho vášeň ukázat lidem cestu kolem moderních technologií ho motivuje k dalšímu psaní.
Přihlaste se k odběru našeho zpravodaje
Připojte se k našemu zpravodaji s technickými tipy, recenzemi, bezplatnými elektronickými knihami a exkluzivními nabídkami!
Ještě jeden krok…!
V e-mailu, který jsme vám právě poslali, potvrďte svou e-mailovou adresu.