Máte obavy z toho, že AI chatboti škrábou na vašem webu obsah? Naštěstí jim v tom můžete zabránit. Zde je návod.
V současné době mají AI chatboti bezplatnou licenci k seškrabávání vašich webových stránek a používání jejich obsahu bez vašeho svolení. Obáváte se, že váš obsah bude těmito nástroji seškrábán?
Dobrou zprávou je, že nástrojům umělé inteligence můžete zabránit v přístupu k vašemu webu, ale existuje několik upozornění. Zde vám ukážeme, jak zablokovat roboty pomocí souboru robots.txt pro váš web, plus výhody a nevýhody toho.
Jak mají AI Chatboti přístup k vašemu webovému obsahu?
Chatboti s umělou inteligencí jsou trénováni pomocí několika datových sad, z nichž některé jsou open source a jsou veřejně dostupné. Například GPT3 byl trénován pomocí pěti datových sad, podle výzkumný dokument publikovaný OpenAI:
- Common Crawl (60% váha při tréninku)
- WebText2 (22% váha při tréninku)
- Knihy 1 (8% váha při tréninku)
- Books2 (8% váha při tréninku)
- Wikipedia (3% váha při tréninku)
Společné procházení
zahrnuje petabajty (tisíce TB) dat z webových stránek shromážděných od roku 2008, podobně jako vyhledávací algoritmus Google prochází webový obsah. WebText2 je datová sada vytvořená OpenAI, která obsahuje zhruba 45 milionů webových stránek, na které se odkazuje z příspěvků na Redditu s alespoň třemi hlasy pro.Takže v případě ChatGPT robot AI nepřistupuje a neprochází vaše webové stránky přímo – každopádně zatím ne. I když OpenAI oznámení webového prohlížeče hostovaného ChatGPT vyjádřil obavy, že by se to mohlo změnit.
Mezitím by majitelé webových stránek měli sledovat další chatboty s umělou inteligencí, protože jich na trh přichází více. Bard je další velké jméno v oboru a ví se o něm jen velmi málo datové sady používané k jeho trénování. Je zřejmé, že víme, že vyhledávací roboti Google neustále procházejí webové stránky, ale to nutně neznamená, že Bard má přístup ke stejným datům.
Proč jsou někteří majitelé webových stránek znepokojeni?
Největším problémem pro vlastníky webových stránek je, že roboti AI jako ChatGPT, Bard a Bing Chat znehodnocují jejich obsah. Roboti AI využívají existující obsah ke generování svých odpovědí, ale také snižují potřebu uživatelů přistupovat k původnímu zdroji. Místo toho, aby uživatelé navštěvovali webové stránky za účelem přístupu k informacím, mohou jednoduše nechat Google nebo Bing vygenerovat souhrn informací, které potřebují.
Pokud jde o chatboty s umělou inteligencí ve vyhledávání, velkou starostí majitelů webových stránek je ztráta návštěvnosti. V případě Barda, AI bot zřídka zahrnuje citace ve svých generativních odpovědích, které uživatelům sdělují, ze kterých stránek získává informace.
Takže kromě nahrazení návštěv webu odpověďmi AI Bard odstraňuje téměř jakoukoli šanci, že zdrojový web získá provoz – i když uživatel chce více informací. Na druhou stranu Bing Chat častěji odkazuje na informační zdroje.
Jinými slovy, současná flotila generativních nástrojů AI je pomocí práce tvůrců obsahu systematicky nahrazovat potřebu tvůrců obsahu. Nakonec se musíte zeptat jakou motivaci to zanechá vlastníkům webových stránek pokračovat ve zveřejňování obsahu. A co se stane s roboty AI, když webové stránky přestanou publikovat obsah, na jehož fungování spoléhají?
Jak blokovat AI roboty z vašeho webu
Pokud nechcete, aby roboti AI používali váš webový obsah, můžete jim zablokovat přístup k vašemu webu pomocí robots.txt soubor. Bohužel musíte zablokovat každého jednotlivého robota a specifikovat je jménem.
Například robot Common Crawl se nazývá CCBot a můžete jej zablokovat přidáním následujícího kódu do souboru robots.txt:
User-agent: CCBot
Disallow: /
To zablokuje Common Crawl v procházení vašeho webu v budoucnu, ale neodstraní žádná data již shromážděná z předchozích procházení.
Pokud se obáváte, že nové pluginy ChatGPT přistupují k vašemu webovému obsahu, OpenAI již publikoval pokyny pro zablokování jeho robota. V tomto případě se robot ChatGPT nazývá ChatGPT-User a můžete jej zablokovat přidáním následujícího kódu do souboru robots.txt:
User-agent: ChatGPT-User
Disallow: /
Zablokování robotů AI vyhledávačů v procházení vašeho obsahu je však úplně jiný problém. Vzhledem k tomu, že Google je velmi tajný, pokud jde o tréninková data, která používá, není možné určit, které roboty budete muset zablokovat a zda budou vůbec respektovat příkazy ve vašem robots.txt soubor (mnoho prohledávačů ne).
Jak účinná je tato metoda?
Blokování robotů AI ve vašem robots.txt soubor je v současnosti nejúčinnější dostupnou metodou, ale není nijak zvlášť spolehlivá.
Prvním problémem je, že musíte specifikovat každého robota, kterého chcete zablokovat, ale kdo může sledovat, jak se každý robot AI dostane na trh? Dalším problémem je, že příkazy ve vašem robots.txt soubor jsou nepovinné pokyny. Zatímco Common Crawl, ChatGPT a mnoho dalších robotů tyto příkazy respektuje, mnoho robotů je nerespektuje.
Další velkou výhradou je, že robotům AI můžete zablokovat pouze budoucí procházení. Nemůžete odstraňovat data z předchozích procházení ani odesílat žádosti společnostem jako OpenAI o vymazání všech vašich dat.
Bohužel neexistuje jednoduchý způsob, jak všem robotům AI zablokovat přístup na váš web a ruční blokování každého jednotlivého robota je téměř nemožné. I když budete držet krok s nejnovějšími roboty umělé inteligence, kteří se pohybují po webu, není žádná záruka, že se všichni budou řídit příkazy ve vašem robots.txt soubor.
Skutečnou otázkou je, zda výsledky stojí za námahu, a krátká odpověď je (téměř jistě) ne.
Blokování robotů AI z vašeho webu má také potenciální nevýhody. Především nebudete moci sbírat smysluplná data, abyste dokázali, zda nástroje jako Bard prospívají nebo poškozují vaši marketingovou strategii ve vyhledávání.
Ano, můžete předpokládat, že nedostatek citací je škodlivý, ale pokud vám chybí data, pouze hádáte, protože jste zablokovali robotům AI přístup k vašemu obsahu. Byl to podobný příběh, když Google poprvé představil doporučené úryvky k vyhledávání.
U relevantních dotazů Google na stránce s výsledky zobrazí úryvek obsahu z webových stránek, který odpovídá na otázku uživatele. To znamená, že uživatelé nemusí klikat na web, aby získali odpověď, kterou hledají. To vyvolalo paniku mezi majiteli webových stránek a odborníky na SEO, kteří se spoléhají na generování návštěvnosti z vyhledávacích dotazů.
Typy dotazů, které spouštějí vybrané úryvky, jsou však obecně vyhledávání s nízkou hodnotou, například „co je X“ nebo „jaké je počasí v New Yorku“. Každý, kdo chce podrobné informace nebo komplexní zprávu o počasí, se stále prokliká, a kdo nechce, nikdy nebyl tak cenný.
Možná zjistíte, že je to podobný příběh s generativními nástroji AI, ale k prokázání toho budete potřebovat data.
Na nic nespěchejte
Vlastníci a vydavatelé webových stránek jsou pochopitelně znepokojeni technologií AI a jsou frustrováni myšlenkou, že roboti využívají jejich obsah ke generování okamžitých odpovědí. Není však čas spěchat do protiofenzivních kroků. Technologie AI je rychle se vyvíjející obor a věci se budou i nadále vyvíjet rychlým tempem. Využijte této příležitosti a podívejte se, jak se věci vyvíjejí, a analyzujte potenciální hrozby a příležitosti, které AI přináší.
Současný systém spoléhání se na to, že je nahrazují práce tvůrců obsahu, není udržitelný. Ať už společnosti jako Google a OpenAI změní svůj přístup nebo vlády zavedou nové předpisy, něco musí dát. Zároveň se stále více projevují negativní dopady AI chatbotů na tvorbu obsahu, čehož mohou majitelé webových stránek a tvůrci obsahu využít ve svůj prospěch.