reklama
Co byste řekl, kdybych vám řekl, že máte k dispozici nástroje k provádění průlomového výzkumu ničení Země? Dobře, uděláte a ukážu vám jak.
Vlády, akademické instituce a neziskové výzkumné organizace zveřejňují tabulky plné dat pro veřejnost. Bez toho, aby kdokoli použil tyto informace, nebude jeho skutečná hodnota nikdy známa. Bohužel málokdo má vhled, dovednosti nebo nástroje pro sběr dat a vytváření zajímavých korelací mezi zdánlivě nespojenými informacemi.
Pozadí
Mnoho výzkumu, který dělám pro svůj vlastní blog, zahrnuje kopání toho, co je známé jako neviditelný web 12 nejlepších vyhledávačů k prozkoumání neviditelného webuGoogle nebo Bing nemohou hledat všechno. Chcete-li prozkoumat neviditelný web, musíte použít tyto speciální vyhledávače. Přečtěte si více , odhalit data, která byla zveřejněna, ale před vyhledávače 5 nejpokročilejších vyhledávačů na webu Přečtěte si více uvnitř online databáze. To je hluboká síť TorSearch usiluje o to, aby Google byl pro hluboký webTor je skrytá služba a součást Deep Web. TorSearch je nový anonymní vyhledávač, jehož zakladatel Chris MacNaughton chce vytvořit „Google of Tor“. Přečtěte si více , a je to spousta cenných dat. Velmi často se setkávám s webovými stránkami, které jsou naplněny několika nejcennějšími údaji o tématech, která spouští gamut od sčítání lidu po epidemiologická studia vzácných onemocnění. Neustále mám nové nápady, jak zkusit a porovnat tyto nesourodé zdroje dat pomocí různých nástroje - a jedním z nejcennějších nástrojů, které jsem našel, je webový dotaz uvnitř společnosti Microsoft Vynikat.
Nalezení zajímavých datových korelací
To, co vám dnes ukážu, je příklad toho, jak můžete využít webové dotazy Excel k získání dat různé webové stránky a mapujte je proti sobě, aby bylo možné hledat možné korelace mezi internetovými stránkami data.
Způsob, jak zahájit takové cvičení, je přijít se zajímavou hypotézou. Například - abych zde udržel věci zajímavé - náhodně si předpokládám, že prudce stoupající míra autismu ve Spojených státech jsou způsobeny buď očkováním očkovací látkou, nebo rostoucím výskytem elektromagnetických polí u dětí a kolem nich, například buněk telefony. Je to šílená hypotéza, jaké se vám líbí na většině webových stránek o spiknutí, ale to je to, co dělá tuto zábavu zábavnou. Pojďme tedy začít?
Nejprve otevřete Excel, přejděte na položku nabídky dat a najděte ikonu „Z webu“ na pásu nabídek.
To je to, co budete používat k importu různých datových tabulek z mnoha webových stránek, které je publikovaly.
Import webových dat do Excelu
Takže za starých časů byste se měli pokusit zkopírovat data z této tabulky na webovou stránku, vložit je do Excelu a poté se vypořádat se všemi bláznivými problémy s formátováním, které s tím souvisí. Total hádka, a mnohokrát to prostě nestojí za bolesti hlavy. V aplikaci Excel Web Queries jsou tyto dny pryč. Než budete importovat data, budete samozřejmě muset Google procházet webem, abyste našli potřebná data ve formátu tabulky. V mém případě jsem našel web, který publikoval statistiku ministerstva školství pro počet studentů veřejné školy v USA, kteří byli identifikováni jako autisté. Pěkná tabulka tam uváděla čísla od roku 1994 až do roku 2006.
Stačí kliknout na „Z webu“, vložte adresu URL webové stránky do pole adresy dotazu a potom přejděte dolů po stránce, dokud neuvidíte žlutou šipku vedle tabulky s údaji, které chcete importovat.
Klikněte na šipku, aby se stala zelenou značkou.
Nakonec sdělte Excelu, do jaké oblasti chcete vložit data tabulky do své nové tabulky.
Pak - Voila! Data automaticky proudí přímo do tabulky.
S trendem míry autistiky školních škol v letech 1996 - 2006 je tedy čas jít hledat trendy očkování a používání mobilních telefonů.
Naštěstí jsem rychle našel trendy pro účastníky mobilních telefonů v USA od roku 1985 do roku 2012. Vynikající údaje pro tuto konkrétní studii. Znovu jsem použil nástroj Excel Web Query k importu této tabulky.
Importoval jsem tu tabulku do čistého nového listu. Poté jsem objevil vakcinační trendy pro procento školních dětí očkovaných pro různé nemoci. Tuto tabulku jsem importoval pomocí nástroje Web Query do třetího listu. Nakonec jsem měl tři listy se třemi tabulkami naplněnými zdánlivě nespojenými údaji, které jsem objevil na webu.
Dalším krokem je analyzovat data pomocí Excelu a pokusit se identifikovat případné korelace. Zde přichází do hry jeden z mých oblíbených nástrojů pro analýzu dat - kontingenční tabulka.
Analýza dat v Excelu pomocí kontingenční tabulky
Nejlepší je vytvořit kontingenční tabulku ve zcela novém prázdném listu. Chcete použít průvodce pro to, co se chystáte dělat. Chcete-li v aplikaci Excel povolit průvodce kontingenční tabulkou, musíte stisknout klávesu Alt-D současně, dokud se neobjeví okno oznámení. Poté tato tlačítka pusťte a stiskněte klávesu „P“. Poté se zobrazí průvodce.
V prvním okně průvodce vyberte „Více rozsahů konsolidace“, což vám umožní vybrat data ze všech importovaných listů. Tímto způsobem můžete sloučit všechna tato zdánlivě nesouvisející data do jednoho výkonného otočného stolu. V některých případech může být nutné některá data masírovat. Například jsem musel opravit pole „Rok“ v tabulce autismu tak, aby ukazovalo „1994“ místo „1994-95“ - díky čemuž se lépe vyrovná tabulkám na ostatních listech, které měly také primární rok pole.
Toto společné pole mezi údaji je to, co potřebujete, abyste mohli zkusit porovnat informace, proto mějte na paměti, že při hledání svých dat na webu.
Jakmile je kontingenční tabulka hotová a máte všechny různé hodnoty dat zobrazené v jedné tabulce, je na čase provést vizuální analýzu, abyste zjistili, zda existuje nějaké zjevné spojení, které na vás vyskočí.
Vizualizace dat je klíčová
Mít spoustu čísel v tabulce je skvělé, pokud jste ekonom, ale nejrychlejší a nejsnadnější způsob, jak mít to „aha!“ okamžik, kdy se snažíte najít spojení jako jehla v kupce sena, je pomocí grafů a grafy. Jakmile budete mít svůj kontingenční graf na svém místě se všemi shromážděnými datovými sadami, je čas vytvořit graf. Čárový graf bude obvykle nejlepší, ale záleží na datech. Jsou časy, kdy sloupcový graf funguje mnohem lépe. Pokuste se pochopit, na jaký druh dat se díváte a jaké porovnání formulářů funguje nejlépe.
V tomto případě se dívám na data v čase, takže čárový graf je opravdu nejlepší způsob, jak vidět trendy v průběhu let. Zaznamenávání míry autismu (zelená) proti zmenšené míře vakcinace (tmavě modrá), vakcíny proti neštovicím (světle modrá) a používání mobilního telefonu (fialová) se v této ukázkové sadě dat, která jsem hrála, najednou objevila zvláštní korelace s.
Kupodivu, trend v používání mobilních telefonů od roku 1994 do roku 2006 téměř dokonale odpovídal stoupání autismu ve stejném časovém období. Přestože byl vzorec zcela neočekávaný, je to dokonalý příklad toho, jak může propojení zajímavých dat odhalit fascinující vedení - což vám poskytne lepší přehled a motivaci k tomu, abyste se neustále tlačili vpřed a hledali další data, která by vás mohla dále podpořit hypotéza.
Jedna korelace, jako je ta výše, nic neprokazuje. Postupem času roste spousta trendů - vzorec může být náhoda, ale může to být také důležitá stopa ve vašem pokračujícím hledání dalších dat na internetu. Naštěstí máte výkonný nástroj s názvem Webové dotazy Excel, který vám tento úkol usnadní.
Fotografický kredit: Kevin Dooley přes photopincc
Ryan má bakalářský titul z elektrotechniky. Pracoval 13 let v automatizační technice, 5 let v IT a nyní je Apps Engineer. Bývalý šéfredaktor MakeUseOf, vystoupil na národních konferencích o vizualizaci dat a vystupoval v národních televizích a rádiích.