Internetová filmová databáze (IMDb) je největší online databáze obsahující informace týkající se filmů, televizních seriálů, domácích videí, videoher a streamovaného obsahu. Online databáze obsahuje miliony přesných záznamů, které můžete použít k analýze dat.

Cinemagoer (dříve známý jako IMDbPY) je knihovna Pythonu pro správu a získávání dat z filmové databáze IMDb. Máte přístup k údajům o filmech, lidech a společnostech, které lze dále použít k analýze.

Instalace požadovaných knihoven

Musíte nainstalovat návštěvník kina Knihovna Python pro přístup k IMDb databáze. Spuštěním následujícího příkazu na příkazovém řádku nainstalujte knihovnu:

pip Nainstalujte návštěvník kina

Musíš mít pip nainstalovaný ve vašem systému k instalaci externích knihoven Pythonu.

Kód použitý v tomto projektu je k dispozici v a úložiště GitHub a můžete jej používat zdarma pod licencí MIT.

Extrahování dat IMDb pomocí Pythonu

Než knihovnu návštěvníků kina použijete ve svém kódu, musíte ji importovat.

z imdb import Návštěvník kina
ia = návštěvník kina()
instagram viewer

Výše uvedený kód importuje knihovnu pro návštěvníky kina a vytvoří instanci třídy návštěvníků kina.

Vyhledávání filmů

Filmy s daným (nebo podobným) názvem můžete vyhledávat pomocí search_movie() metoda. Pokud například chcete vyhledat filmy s názvem „rock“, musíte spustit následující kód:

z imdb import Návštěvník kina

# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()

# Vyhledávání filmů, které mají ve svém názvu rock
filmy = ia.search_movie('Skála')
tisk(filmy[0])

To by mělo vytisknout první nalezený film, například:

Film můžete získat podle jeho IMDb ID. Poté můžete extrahovat další informace, jako jsou jména režisérů a žánry. Musíš procházet seznamem získat individuální informace.

z imdb import Návštěvník kina

# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()

# Získání filmu podle IMDb ID
film = ia.get_movie('0468569')
tisk(film)

# Tisk jmen režisérů filmu
tisk('Ředitelé:')

pro režiséra ve filmu['ředitelé']:
tisknout (ředitel['název'])

# tisk žánrů filmu
tisk('Žánry:')

pro žánr ve filmu['žánry']:
tisk(žánr)

Ve výstupu byste měli vidět název daného filmu, jeho režiséra (režiséry) a žánry:

Hledání osoby

Můžete vyhledávat lidi pomocí search_person() metoda. Pokud chcete například vyhledat „Heath“, musíte spustit následující kód:

z imdb import Návštěvník kina

# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()

# Hledání lidí, kteří mají ve jménech Heatha
osoby = ia.search_person('Vřesoviště')
tisk(osoby[0])

Zobrazí se jméno první odpovídající osoby, kterou vyhledávání najde:

Vyhledávání společností

Můžete vyhledávat společnosti pomocí vyhledávací_společnost() metoda. Pokud například chcete vyhledat „Universal“, musíte spustit následující kód:

z imdb import Návštěvník kina

# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()

# Hledání společností, které mají v názvu Universal
společnosti = ia.search_company('Univerzální')
tisk(společnosti)

Získáte seznam všech společností, které mají Universal ve svém názvu.

Můžete také získat údaje o osobě a společnosti pomocí jejího ID.

z imdb import Návštěvník kina

# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()

# Získání osobních údajů podle ID
osoba = ia.get_person('0005132')
tisknout (osoba['název'])
tisknout (osoba['datum narození'])

# Získání firemních dat podle ID
společnost = ia.get_company('0005073')
tisknout (společnost['název'])

Výstup zobrazí podrobnosti o osobě a jméno společnosti:

Hledání filmů nahoře a dole

Data pro 250 nejlepších a 100 dolních filmů můžete načíst pomocí get_top250_movies() a get_bottom100_movies() metody, respektive:

z imdb import Návštěvník kina

# Vytvoření instance třídy Cinemagoer
ia = návštěvník kina()

# Nalezení 250 nejlepších filmů
top = ia.get_top250_movies()
tisk(horní[0])

# Nalezení spodních 100 filmů
dole = ia.get_bottom100_movies()
tisk(dno[0])

Jako odpověď uvidíte název nejlepšího filmu a název nejhoršího:

Knihovna pro návštěvníky kin také poskytuje některé další metody, jako např get_top250_tv(), get_popular100_movies(), a get_top250_indian_movies().

Analýza dat je vyhodnocení dat pomocí analytických nebo statistických nástrojů k extrakci informací. Popularita analýzy dat každým dnem roste. Nyní jej používají podniky, marketingové společnosti a sportovní týmy. Kompletní proces analýzy dat zahrnuje definování cílů, kladení otázek, sběr dat, drcení dat, analýzu dat a konečné výsledky.

Datové sady pro své projekty můžete získat pomocí knihoven Pythonu, jako je Cinemagoer, nebo prostřednictvím online platforem, jako je Kaggle. Kromě úplných jazyků, jako je Python a R, můžete k analýze dat používat další nástroje, jako je Microsoft Excel, Tableau a Stata.