reklama
Pokud jde o online databáze a informace, které lze nalézt uvnitř tzv. „neviditelný web 12 nejlepších vyhledávačů k prozkoumání neviditelného webuGoogle nebo Bing nemohou hledat všechno. Chcete-li prozkoumat neviditelný web, musíte použít tyto speciální vyhledávače. Přečtěte si více „Nejsem váš typický uživatel. Jistě, trávím trochu času trávením online databázemi na místech, jako je Národní archiv a čtení CIA FOIA místnost, ale musím říci, že mě nic nezajímá, než když najdu tabulku založenou na HTML naplněnou objemy zdánlivě složitých a nespojených data.
Faktem je, že tabulky údajů jsou zlatým důlem důležitých pravd. Data se často sbírají armádami sběru dat zavrčí s botami na zemi. Máte lidi z amerického sčítání lidu cestující po celé zemi pro informace o domácnosti a rodině. Máte neziskové environmentální skupiny shromažďující nejrůznější zajímavé informace o životním prostředí, znečištění, globálním oteplování a další. A pokud se chystáte do paranormální nebo Ufologie, jsou nad námi neustále k dispozici aktualizované tabulky informací o pozorování podivných objektů na obloze.
Je ironií, že byste si mysleli, že jakákoli vláda na světě by měla zájem vědět, o jaký druh cizí řemesla jsou spatřena na obloze nad jakoukoli zemí, ale zjevně ne - alespoň ne v USA tak jako tak. V Americe byla sbírka neobvyklých pozorování řemesel zařazena do týmů amatérských fandů, kteří se hrnou na nové pozorování UFO jako můry plamenem. Můj zájem o tyto pozorování ve skutečnosti nevyplývá z fascinace mimozemšťany nebo řemesla z jiných planet, ale z vědecké fascinace vzory - kde a proč více lidí vidí věci na obloze a zda tato pozorování mohou odrážet něco velmi reálného a mnohem více skutečného, co se vlastně děje na Zemi na.
Abych prozkoumal objemy dat shromážděných týmy fandů UFO, vyvinul jsem způsob, jak importovat velké HTML tabulky data do tabulky Google a poté s nimi manipulovat a analyzovat, aby se extrahovaly a objevily smysluplné a důležité informace. V tomto článku vám chci ukázat, jak to udělat.
Důležitá data HTML do tabulky Google
V tomto příkladu vám ukážu, jak importovat veškerá data, která by mohla být uložena v tabulce na libovolný web na internetu, do tabulky Google. Přemýšlejte o obrovském množství dat, která jsou dnes na internetu k dispozici, ve formě tabulek HTML. Wikipedia sama obsahuje data v tabulkách pro témata jako globální oteplování, americký sčítání lidu Bureau má tuny datové soubory populace, a trochu Googlingu vás přistane mnohem víc.
V mém příkladu začínám s databází v Národním středisku pro hlášení UFO, která ve skutečnosti vypadá, že by to mohla být hluboká webová databáze typu dotazu, ale pokud budete sledovat Strukturování URL, jedná se vlastně o polosložitý webový reportingový systém sestávající ze statických webových stránek a statických HTML tabulek - přesně to, co chceme, když hledáme data import.
NUForc.org je jednou z těch organizací, která slouží jako jedno z největších zpravodajských středisek pro pozorování UFO. Není to jediný, ale je dost velký na to, aby každý měsíc našel nové datové sady s aktuálními pozorováními. Zvolíte zobrazení dat seřazených podle kritérií, jako je stát nebo datum, a všechna z nich jsou poskytována ve formě statické stránky. Pokud seřadíte podle data a potom klepnete na nejnovější datum, uvidíte, že v uvedené tabulce je statická webová stránka pojmenovaná podle formátu data.
Nyní máme vzor pro pravidelné extrahování nejnovějších informací o pozorováních z této databáze založené na HTML. Jediné, co musíte udělat, je importovat první tabulku, pomocí poslední položky (horní) identifikovat nejnovější aktualizace a poté pomocí data tohoto zveřejnění vytvořte odkaz URL, kde je nejnovější tabulka dat HTML existuje. To bude vyžadovat pouze několik instancí funkce ImportHTML a poté několik kreativních využití funkcí manipulace s textem. Až budete hotovi, budete mít jednu z nejúžasnějších, samo aktualizujících se tabulek přehledů. Začněme.
Import tabulek a manipulace s daty
Prvním krokem je samozřejmě vytvoření nové tabulky.
Jak tedy importujete tabulky HTML? Vše, co potřebujete, je adresa URL, kde je tabulka uložena, a číslo tabulky na stránce - obvykle první uvedená je 1, druhá je 2 atd. Protože znám adresu URL této první tabulky se seznamem dat a počtem pozorování, je možné importovat zadáním následující funkce do buňky A1.
= importhtml (“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 drží funkci “= hodina (nyní ())“, Takže tabulka se aktualizuje každou hodinu. Toto je pravděpodobně extrémní u dat, která to občas aktualizují, takže bych se s tím mohl denně vyhýbat. Výše uvedená funkce ImportHTML přesto přináší tabulku, jak je ukázáno níže.
Než budete moci sestavit URL druhé tabulky se všemi pozorováními UFO, budete muset na této stránce udělat trochu manipulace s daty. Ale pokračujte a vytvořte druhý list v sešitu.
Než se pokusíte sestavit tento druhý list, je čas extrahovat datum postu z této první tabulky, aby se vytvořil odkaz na druhou tabulku. Problém je v tom, že datum je uvedeno jako formát data, nikoli jako řetězec. Nejprve tedy musíte použít funkci TEXT k převodu data zaúčtování na řetězec:
= text (A2, ”mm / dd / rr”)
V následující buňce napravo musíte použít funkci SPLIT s oddělovačem „/“, abyste rozdělili datum na měsíc, den a rok.
= split (D2, ”/”)
Vypadáš dobře! Každé číslo však musí být vynuceno na dvě číslice. To provedete v buňkách přímo pod nimi znovu pomocí příkazu TEXT.
= text (E2, ”00 ″)
Formát „00“ (jedná se o nula) vynutí dvě číslice nebo „0“ jako zástupný symbol.
Nyní jste připraveni znovu vytvořit celou adresu URL na nejnovější tabulku nových pozorování HTML. To lze provést pomocí funkce CONCATENATE a seskupením všech bitů informací, které jste právě extrahovali z první tabulky.
= zřetězené (“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Nyní na novém listu, který jste vytvořili výše (prázdný list), uděláte novou funkci „importhtml“, ale tentokrát poprvé Parametr odkazu URL, takže se chystáte přejít zpět do první tabulky a kliknout na buňku s odkazem URL, který jste právě vytvořili.
Druhým parametrem je „tabulka“ a posledním je „1“ (protože tabulka pozorování je první a pouze na stránce). Stiskněte klávesu Enter a právě jste importovali celý objem pozorování, které byly zveřejněny v dané datum.
Pravděpodobně si myslíte, že je to pěkný novinový akt a všechno - myslím, že to, co jste udělali, je nakonec existující informace z tabulky na internetu a přenesli je do jiné tabulky, i když soukromou v dokumentech Google účet. Ano, to je pravda. Nyní, když je to ve vašem vlastním soukromém účtu Dokumentů Google, máte na dosah ruky nástroje a funkce pro lepší analýzu těchto dat a zahájení objevování úžasných spojení.
Použití kontingenčních zpráv k analýze importovaných dat
Nedávno jsem napsal článek o používání Kontingenční zprávy v tabulce Google Staňte se analytikem analytiků dat přes noc pomocí nástrojů pro tvorbu tabulek GoogleVěděli jste, že jedním z největších nástrojů pro analýzu dat je ve skutečnosti Google Spreadsheet? Důvodem není jen to, že dokáže udělat téměř vše, co byste chtěli ... Přečtěte si více provádět nejrůznější funkce pro analýzu dat v pohodě. S daty, která jste importovali z internetu, můžete udělat stejnou akrobacii analýzy dat - dává vám možnost odhalit zajímavá spojení, která možná nikdo jiný dosud neobjevil vy.
Například z poslední tabulky pozorování bych se mohl rozhodnout použít kontingenční zprávu, abych se podíval na počet různé jedinečné tvary hlášené v každém státě, v porovnání s celkovým počtem pozorování v tomto konkrétním Stát. Nakonec také odfiltruji cokoli, co zmiňuje „mimozemšťany“ v sekci komentářů, abych snad vyřadil některé z dalších záznamů oříšků.
To ve skutečnosti odhaluje některé docela zajímavé věci hned od netopýra, jako je skutečnost, že Kalifornie má zjevně nejvyšší počet hlášených pozorování jakéhokoli jiného státu, spolu s rozlišením vykazování nejvyššího počtu tvarů plavidel v EU země. Ukazuje také, že Massachusetts, Florida a Illinois jsou také velkými hittery v oddělení pozorování UFO (alespoň v nejnovějších údajích).
Další skvělou věcí na Tabulce Google je široká škála grafů, které máte k dispozici, včetně Geo-Map, která vám umožní rozložte „hot spots“ dat v grafickém formátu, který opravdu vyniká a tato spojení v datech zcela vytvoří zřejmé.
Pokud o tom přemýšlíte, je to opravdu jen špička ledovce. Pokud nyní můžete importovat data z datových tabulek na kterékoli stránce na internetu, jen pomyslete na možnosti. Získejte nejnovější čísla akcií nebo nejnovějších 10 nejlepších knih a autorů na seznamu bestsellerů New York Times nebo nejprodávanějších automobilů na světě. Existují tabulky HTML na téměř jakémkoli tématu, které si dokážete představit, a v mnoha případech jsou tyto tabulky často aktualizovány.
ImportHtml vám dává možnost připojit tabulku Google k internetu a odkrýt data, která existují. Může se stát vaším vlastním osobním centrem informací, které můžete použít k manipulaci a masáži do formátu, se kterým můžete skutečně pracovat. Je to jen jedna další velmi zajímavá věc, která se mi líbí v Tabulce Google.
Už jste někdy importovali data do svých tabulek? Jaké zajímavé věci jste v těchto datech objevili? Jak jste data použil? Podělte se o své zkušenosti a nápady v sekci níže!
Obrazové kredity: Obchodní graf
Ryan má bakalářský titul z elektrotechniky. Pracoval 13 let v automatizační technice, 5 let v IT a nyní je Apps Engineer. Bývalý šéfredaktor MakeUseOf, vystoupil na národních konferencích o vizualizaci dat a vystupoval v národních televizích a rádiích.