Internetová filmová databáze (IMDb) je největší online databáze obsahující informace týkající se filmů, televizních seriálů, domácích videí, videoher a streamovaného obsahu. Online databáze obsahuje miliony přesných záznamů, které můžete použít k analýze dat.
Cinemagoer (dříve známý jako IMDbPY) je knihovna Pythonu pro správu a získávání dat z filmové databáze IMDb. Máte přístup k údajům o filmech, lidech a společnostech, které lze dále použít k analýze.
Instalace požadovaných knihoven
Musíte nainstalovat návštěvník kina Knihovna Python pro přístup k IMDb databáze. Spuštěním následujícího příkazu na příkazovém řádku nainstalujte knihovnu:
pip Nainstalujte návštěvník kina
Musíš mít pip nainstalovaný ve vašem systému k instalaci externích knihoven Pythonu.
Kód použitý v tomto projektu je k dispozici v a úložiště GitHub a můžete jej používat zdarma pod licencí MIT.
Extrahování dat IMDb pomocí Pythonu
Než knihovnu návštěvníků kina použijete ve svém kódu, musíte ji importovat.
z imdb import Návštěvník kina
ia = návštěvník kina()
Výše uvedený kód importuje knihovnu pro návštěvníky kina a vytvoří instanci třídy návštěvníků kina.
Vyhledávání filmů
Filmy s daným (nebo podobným) názvem můžete vyhledávat pomocí search_movie() metoda. Pokud například chcete vyhledat filmy s názvem „rock“, musíte spustit následující kód:
z imdb import Návštěvník kina
# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()
# Vyhledávání filmů, které mají ve svém názvu rock
filmy = ia.search_movie('Skála')
tisk(filmy[0])
To by mělo vytisknout první nalezený film, například:
Film můžete získat podle jeho IMDb ID. Poté můžete extrahovat další informace, jako jsou jména režisérů a žánry. Musíš procházet seznamem získat individuální informace.
z imdb import Návštěvník kina
# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()# Získání filmu podle IMDb ID
film = ia.get_movie('0468569')
tisk(film)# Tisk jmen režisérů filmu
tisk('Ředitelé:')pro režiséra ve filmu['ředitelé']:
tisknout (ředitel['název'])# tisk žánrů filmu
tisk('Žánry:')
pro žánr ve filmu['žánry']:
tisk(žánr)
Ve výstupu byste měli vidět název daného filmu, jeho režiséra (režiséry) a žánry:
Hledání osoby
Můžete vyhledávat lidi pomocí search_person() metoda. Pokud chcete například vyhledat „Heath“, musíte spustit následující kód:
z imdb import Návštěvník kina
# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()
# Hledání lidí, kteří mají ve jménech Heatha
osoby = ia.search_person('Vřesoviště')
tisk(osoby[0])
Zobrazí se jméno první odpovídající osoby, kterou vyhledávání najde:
Vyhledávání společností
Můžete vyhledávat společnosti pomocí vyhledávací_společnost() metoda. Pokud například chcete vyhledat „Universal“, musíte spustit následující kód:
z imdb import Návštěvník kina
# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()
# Hledání společností, které mají v názvu Universal
společnosti = ia.search_company('Univerzální')
tisk(společnosti)
Získáte seznam všech společností, které mají Universal ve svém názvu.
Můžete také získat údaje o osobě a společnosti pomocí jejího ID.
z imdb import Návštěvník kina
# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()# Získání osobních údajů podle ID
osoba = ia.get_person('0005132')
tisknout (osoba['název'])
tisknout (osoba['datum narození'])
# Získání firemních dat podle ID
společnost = ia.get_company('0005073')
tisknout (společnost['název'])
Výstup zobrazí podrobnosti o osobě a jméno společnosti:
Hledání filmů nahoře a dole
Data pro 250 nejlepších a 100 dolních filmů můžete načíst pomocí get_top250_movies() a get_bottom100_movies() metody, respektive:
z imdb import Návštěvník kina
# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()# Nalezení 250 nejlepších filmů
top = ia.get_top250_movies()
tisk(horní[0])
# Nalezení spodních 100 filmů
dole = ia.get_bottom100_movies()
tisk(dno[0])
Jako odpověď uvidíte název nejlepšího filmu a název nejhoršího:
Knihovna pro návštěvníky kin také poskytuje některé další metody, jako např get_top250_tv(), get_popular100_movies(), a get_top250_indian_movies().
Analýza dat je vyhodnocení dat pomocí analytických nebo statistických nástrojů k extrakci informací. Popularita analýzy dat každým dnem roste. Nyní jej používají podniky, marketingové společnosti a sportovní týmy. Kompletní proces analýzy dat zahrnuje definování cílů, kladení otázek, sběr dat, drcení dat, analýzu dat a konečné výsledky.
Datové sady pro své projekty můžete získat pomocí knihoven Pythonu, jako je Cinemagoer, nebo prostřednictvím online platforem, jako je Kaggle. Kromě úplných jazyků, jako je Python a R, můžete k analýze dat používat další nástroje, jako je Microsoft Excel, Tableau a Stata.