GPTBot pravděpodobně není to, co si myslíte.

Klíčové věci

  • GPTBot od OpenAI je webový prohledávač navržený ke shromažďování dat z veřejných webů, která se pak používají k trénování a vylepšování modelů umělé inteligence, jako jsou GPT-4 a ChatGPT.
  • Některé z největších webových stránek na internetu blokují GPTBot, protože přistupuje a používá obsah chráněný autorskými právy bez povolení nebo kompenzace pro tvůrce.
  • I když webové stránky mohou používat nástroje jako robots.txt, aby se pokusily zablokovat GPTBot, neexistuje žádná záruka, že OpenAI bude vyhovovat a dá jim kontrolu nad přístupem k datům chráněným autorským právem.

V srpnu 2023 oznámila OpenAI, AI, která se zasloužila o vývoj ChatGPT, GPTBot, webový prohledávač určený k procházení webu a shromažďování dat.

Nedlouho po tomto oznámení některé z největších webových stránek na internetu zablokovaly robotovi přístup na jejich web. Ale proč? Co je GPTBot OpenAI? Proč se toho velké weby bojí a proč se to snaží blokovat?

Co je GPTBot OpenAI?

GPTBot je webový prohledávač vytvořený OpenAI pro vyhledávání na internetu a shromažďování informací pro rozvojové cíle OpenAI AI. Je naprogramován k procházení veřejných webových stránek a odesílání dat zpět na servery OpenAI. OpenAI pak tato data využívá k trénování a vylepšování svých modelů AI s cílem budovat stále pokročilejší systémy umělé inteligence. Pro vytváření sofistikovaných modelů umělé inteligence, jako je GPT-4 nebo jeho podřízených produktů, jako je ChatGPT, jsou webové prohledávače téměř nepostradatelné.

Trénink modelu umělé inteligence vyžaduje obrovské množství dat a jedním z nejúčinnějších způsobů, jak tato data shromáždit, je nasazení nástrojů, jako jsou webové prohledávače. Prohledávače mohou systematicky procházet web, pomocí odkazů indexovat velké objemy webových stránek a extrahovat klíčová data, jako jsou text, obrázky a metadata, která odpovídají předem definovanému vzoru.

Tato data pak lze strukturovat a vkládat do modelů umělé inteligence, aby se trénovaly jejich schopnosti zpracování přirozeného jazyka nebo schopnosti generování obrázků nebo je trénovali pro jiné úkoly umělé inteligence. Jednoduše řečeno, webové prohledávače shromažďují data, která umožňují nástrojům jako ChatGPT nebo DALL-E dělat to, co dělají.

Webové prohledávače nejsou novým konceptem. Pravděpodobně jich dnes miliony procházejí miliardy webových stránek dostupných na internetu. A existují minimálně od počátku 90. let. GPTBot je jen jedním z takových prohledávačů vlastněných OpenAI. Co tedy způsobuje kontroverzi kolem tohoto konkrétního webového prohledávače?

Proč velké technologické weby blokují GPTBot?

Podle Business Insider, některé z největších webových stránek na internetu aktivně blokují prohledávač OpenAI na svých webových stránkách. Pokud je tedy konečným cílem GPTBot pokročit ve vývoji umělé inteligence, proč jsou některé z největších webů na internetu, z nichž některé tak či onak z umělé inteligence těžily, proti?

No, tady je ta věc. Od oživení generativních technologií umělé inteligence v roce 2022 se vedly četné debaty o právu společností s umělou inteligencí na téměř neomezeně využívat data získaná z internetu, z nichž značná část je právně chráněna autorská práva. Žádné jasné zákony neupravují, jak tyto společnosti shromažďují a používají data pro svůj vlastní zisk.

V zásadě tedy prohledávače, jako je GPTBot, procházejí web a získávají kreativní práci lidí ve formě textu, obrázků nebo jiných forem média a používat je pro komerční účely bez získání jakéhokoli povolení, licence nebo poskytnutí náhrady za originál tvůrci.

Venku je divoký západ a společnosti s umělou inteligencí se chytají všeho, co jim přijde pod ruku. Velké weby jako Quora, CNN, New York Times, Business Insider a Amazon nejsou příliš potěšeny tím, Tyto prohledávače shromažďují obsah chráněný autorskými právy, takže OpenAI z něj může mít finanční prospěch výdaj.

To je důvod, proč tyto weby nasazují „robots.txt“, desítky let starou metodu blokování webových prohledávačů. Podle OpenAI, GPTBot se bude řídit pokyny k procházení nebo zamezení procházení webových stránek na základě pravidel vložených do robots.txt, malého textového souboru, který webovým prohledávačům říká, jak se mají na webu chovat. Pokud máte vlastní web a rádi byste zabránili GPTBot získávat vaše data, zde je návod, jak můžete zablokujte prohledávače OpenAI v seškrabování vašeho webu.

Mohou webové stránky skutečně zastavit GPTBot?

Zatímco prohledávače jako GPTBot jsou nepostradatelné pro shromažďování obrovského množství dat trénují pokročilé systémy umělé inteligence, existují oprávněné obavy týkající se autorských práv a spravedlivého použití, které nemohou být ignoroval.

Jistě, existují jednoduché nástroje jako robots.txt, které lze použít k ochraně proti tomu, ale zda se GPTBot podřídí pokynům v tomto souboru, je zcela na uvážení OpenAI. Neexistují žádné záruky, že tak učiní, a neexistuje žádný bezprostřední spolehlivý způsob, jak zjistit, zda tak učinili. V boji za udržení GPTBot mimo data chráněná autorskými právy drží OpenAI esa, alespoň prozatím.