Web scraping zahrnuje sběr informací ve formě dat z webových stránek nebo stránek. Ačkoli váš nemusí být vědomým aktem, při shromažďování informací jste web tak či onak poškrábali. Ale to je obvykle jemné.

Škrábání webu nebo škrábání obrazovky je obecně účelný čin a odborníci automatizují návrh, aby získali obrovská data. Ať už ručním kopírováním textů na web, pomocí specializovaných nástrojů nebo psaním skriptů pro škrábání na webu, škrabky na webu někdy zasáhnou tvrdě několik požadavků najednou.

Ale zatímco mnoho podniků nyní využívá škrábání webu k získání konkurenční výhody, je to vlastně legální?

Které weby byste měli a neměli škrábat?

Internet je soubor informací, který lidem umožňuje přístup ke starým datům a datům v reálném čase. Škrábání webu nebo škrábání obrazovky je tu už nějakou dobu. Kolik byste toho ale měli použít a které weby můžete škrábat?

Některé weby jsou přísné pomocí webových prohledávačů nebo škrabek na obrazovku a zcela je blokují. Je tedy zjevné, že byste takové weby neměli škrábat. Ale lidé to stále dělají.

instagram viewer

Bohužel není nic jiného, ​​co by takové stránky mohly udělat, aby to zastavily, kromě toho, že budou opravovat své mezery.

Než webovou stránku seškrábnete, měli byste v ideálním případě zkontrolovat, zda umožňuje procházení. Obvykle to zjistíte kontrolou souboru robots.txt na webu. To provedete zadáním „[URL webových stránek] /robots.txt“.

Soubor robots.txt obvykle nastavuje pravidla pro různé prohledávače nebo uživatelské agenty. Tato pravidla se však liší v závislosti na příslušném webu. Zatímco některé weby umožňují procházení na všech stránkách, některé určují stránky, které může robot procházet, a jiné úplně blokují prohledávače.

Web, který blokuje procházení všech stránek všemi agenty uživatelů, obvykle stanoví následující pravidla:

user-agent: *
Zakázat: /

Soubor robots.txt, který blokuje procházení určitých adresářů nebo stránek všemi roboty, obvykle vypadá takto:

user-agent: *
Zakázat: / URL na stránku 1
Zakázat: / URL na stránku 2

Pokud soubor robots.txt nezakazuje stránku, kterou chcete procházet, můžete ji pravděpodobně seškrábnout. Jinak byste měli ustoupit nebo požádat o souhlas správce. Mohou vám poskytnout přístup.

Některé webové stránky navíc výslovně uvádějí, zda v podmínkách používání umožňují procházení či nikoli. Někteří to dokonce uvádějí také v horní části souboru robots.txt. Vždy to také zkontrolujte, abyste se ujistili, že děláte správnou věc.

Jak je zneužíváno škrábání webu

Takže pokud jste obdrželi nevyžádané e-maily nebo SMS z webů nebo od lidí, kterým jste nikdy neposkytli své osobní údaje, pravděpodobně jste někde někde sešrotováni. A většinou je to prostřednictvím jednoho z vašich sociálních médií.

To znamená, že škrábání webu někdy není jen pouhé shromažďování dat, která se vykreslují až k rozhraní. Pokud je používán zlomyslně, může to mít za následek únik osobních a utajovaných informací.

Zatímco většina platforem sociálních médií se na to mračí, procházení roboti stále mají přístup k profilům lidí a jejich kontaktní informace jsou propouštěny a škrábány.

Například o Facebooku se uvádí, že má chyby zabezpečení, které v minulosti prozrazovaly kontaktní informace uživatelů, přestože je uživatelé udržují v soukromí.

Podobně LinkedIn nedávno utrpěl narušení bezpečnosti, které vedlo k úniku osobních údajů patřící k více než 500 milionům účtů. Tato chyba zabezpečení proto vedla ke sdílení mnoha e-mailových adres a telefonních čísel bez souhlasu vlastníků profilů.

Je nezákonné škrábat web?

K zákonnosti škrábání webu nikdy nedošlo k závěru. Místo toho se zaměřujeme na to, jak prohledávač pracuje od případu k případu a čeho používají shromážděná data k dosažení.

Takže spíše než vyvozovat závěr o jeho zákonnosti je škrábání nezákonné. Pokud to ale uděláte uvážlivě, není to nezákonné.

Jak se však očekávalo, zdá se, že existuje přísnější politika pro škrábání a používání údajů ze sociálních médií, protože soukromí uživatelů je tak důležité. Všechno se však stále scvrkává na to, jak lidé škrábají data.

The Blog o právu na internetu a sociálních médiích analyzoval případ hiQ Labs, společnosti na škrábání dat, která v roce 2019 vyhrála soudní spor s LinkedIn poté, co se pokusila zablokovat hiQ Labs v škrábání veřejně dostupných dat uživatelů LinkedIn.

Protože hiQ Labs tvrdí, že zákon o počítačových podvodech a zneužití (CFAA) zakazuje pouze neoprávněný přístup, Rozsudek potvrdil, že data LinkedIn jsou veřejně dostupná, takže každý, kdo je škrábal, tak učinil, protože jsou přístupné.

Kromě toho laboratoře hiQ používaly získaná data pouze k poskytování analytických řešení pro společnosti - aby mohly lépe přijímat rozhodnutí o náboru.

Naopak Facebook nedávno žaloval vývojáře rozšíření Chrome kteří poškrábali profily uživatelů Facebooku bez jejich souhlasu.

Podobně, a web copycat byl žalován společností Facebook pro škrábání informací o profilu několika uživatelů Instagramu a jejich následné použití k vytváření klonů. Podle této zprávy pak Facebook šel dále, aby získal trvalé soudní příkaz proti pachateli.

Existuje několik případů, kdy lidé mohli nelegálně použít škrábání webu. Uvedené společnosti shromažďovaly údaje uživatelů Facebooku klamně, bez souhlasu jejich uživatelů. Porušilo to tedy zásady ochrany osobních údajů.

Ačkoli by tedy škrábání webu mohlo frustrovat web, ze kterého získává data, žádné obecné pravidlo v současné době nezabrání lidem v tom, aby dostali to, co chtějí, pokud neporušují přímo zákony o internetu.

Je škrábání na webu synonymem hackingu?

Existuje několik mýtů obklopujících škrábání webu. Jedním z nich je víra, že škrábání webové stránky znamená, že jste ji hackli. Ačkoli hackerství může nakonec vést k sešrotování dat, tvrzení, že tento výraz sám o sobě znamená hackování webu, není pravdivé.

Web scraping může zahrnovat použití vyhrazené nástroje pro procházení nebo škrábání, Aplikační programovací rozhraní (API) nebo skripty pro škrábání webu za účelem získání vykreslených dat z webu. Na rozdíl od hackování neohrožuje webové stránky, které škrábá, ani nenarušuje zážitky svých uživatelů.

Příbuzný: Co je to škrábání webu? Jak sbírat data z webových stránek

Zatímco hackerství zahrnuje neoprávněný přístup, obvykle do databáze webu, škrábání webu se zaměřuje pouze na data, která jsou již viditelná na frontendu. I když lidé mohou škrábání webů používat škodlivě, stále to není synonymum hackingu.

Kromě toho je na rozdíl od škrábání webu úmyslné a neetické hackování nezákonné.

Jaké jsou výhody škrábání webu?

Web scraping má mnoho pozitiv a dokonce i některé technologické společnosti nyní nabízejí svá data zdarma prostřednictvím API. Tyto informace obvykle nestačí k posouzení obchodních trendů a k rozhodování.

Společnosti tedy nyní získávají více dat vyřazením webu, aby zlepšily postupy a podpořily prodej. Vědci v oblasti dat navíc krmí algoritmy strojového učení daty shromážděnými prostřednictvím škrábání obrazovky.

Takovými daty mohou být obrázky používané při rozpoznávání obrázků, prosté texty pro analýzu sentimentu nebo přímá data produktu pro analýzu trhu a analýzu chování spotřebitele.

Příbuzný: Unikátní způsoby, jak získat datové sady pro váš projekt strojového učení

Web scraping je tedy ještě užitečnější, protože pokud máte přístup k informacím, které váš konkurent nemá, můžete je porazit.

Zatímco některé weby se mračily na webové škrabky, některým, dokonce i službám elektronického obchodování, je jedno, jestli jejich data seškrábete nebo ne. Weboví giganti jako eBay a Salesforce zahájili své API v roce 2000 a poprvé nabídli programátorům přístup k veřejným datům.

Měli byste vlastně škrábat web?

Zjistili jsme, že škrábání webu není nezákonné, pokud je provedeno správným způsobem. Ale co děláte s daty, která škrábáte, je také problém. Takže místo toho, abyste to zneužívali, použijte k získání dalších poznatků, které vám a ostatním pomohou činit informovaná rozhodnutí.

Schopnost web scraping vám však umožňuje přístup k velkým částem internetových dat, což vám nebo vaší společnosti může pomoci zůstat nad obchodním mezerou. Jako datový vědec dokonce rozšiřuje váš rozsah a zlepšuje vaše kódovací a technické dovednosti.

Například Python je jedním z programovacích jazyků, který vám pomůže snadno seškrábat web pomocí knihovny Beautiful Soup nebo rámce Scrapy.

E-mailem
Škrábejte web pomocí tohoto krásného výukového programu Python

Máte zájem o škrábání webu? Tady je postup, jak seškrábnout web kvůli obsahu a dalšímu obsahu pomocí knihovny Beautiful Soup Python.

Přečtěte si další

Související témata
  • Bezpečnostní
  • Programování
  • Zabezpečení online
  • Škrábání webu
O autorovi
Idowu Omisola (71 publikovaných článků)

Idowu je vášnivý pro cokoli inteligentního a produktivního. Ve svém volném čase si hraje s kódováním a když se nudí, přepne se na šachovnici, ale také rád občas vybočuje z rutiny. Jeho vášeň ukázat lidem cestu kolem moderních technologií ho motivuje k dalšímu psaní.

Více od Idowu Omisola

Přihlaste se k odběru našeho zpravodaje

Připojte se k našemu zpravodaji s technickými tipy, recenzemi, bezplatnými elektronickými knihami a exkluzivními nabídkami!

Ještě jeden krok…!

V e-mailu, který jsme vám právě poslali, potvrďte svou e-mailovou adresu.

.