8 klíčových faktorů, které je třeba vzít v úvahu při testování přesnosti chatbotů AI

Můžete otestovat různé chatboty s umělou inteligencí, abyste zjistili, který funguje nejlépe. Ale jak byste to měli udělat? Zde je několik klíčových faktorů, které je třeba zvážit.

Umělá inteligence urazila dlouhou cestu od vytváření irelevantního, nekoherentního výstupu. Moderní chatboti používají pokročilé jazykové modely, které kromě jiných složitých úkolů odpovídají na otázky týkající se obecných znalostí, tvoří dlouhé eseje a píší kód.

Navzdory těmto pokrokům si všimněte, že i ty nejsofistikovanější systémy mají svá omezení. AI stále dělá chyby. Chcete-li určit, kteří chatboti jsou nejméně náchylní k halucinacím, otestujte jejich přesnost na základě těchto faktorů.

1. Počítání

Spusťte matematické rovnice prostřednictvím chatbotů. Otestují schopnost platformy analyzovat slovní úlohy, překládat matematické pojmy a používat správné vzorce. Pouze několik modelů vykazuje spolehlivou numerickou gramotnost. Ve skutečnosti jeden z Nejhorší problémy ChatGPT během jeho první měsíce bylo jeho hrozné porozumění matematice.

instagram viewer

Níže uvedený obrázek ukazuje, že ChatGPT selhává v základních statistikách.

ChatGPT ukázal zlepšení po OpenAI vydala své aktualizace z května 2023. Ale vzhledem k omezeným datovým sadám budete mít stále problémy se středně pokročilými až pokročilými matematickými výpočty.

Mezitím Bing Chat a Google Bard vykazují lepší numerickou gramotnost. Spouštějí dotazy prostřednictvím příslušných vyhledávačů, což jim umožňuje získávat vzorce a odpovědní listy.

Zkuste přeformulovat své slovní úlohy. Vyvarujte se dlouhých vět a nahraďte slabá slovesa; jinak by chatboti mohli vaše otázky špatně pochopit.

2. Chápání

Moderní systémy umělé inteligence mohou převzít více úkolů. Pokročilé LLM jim umožňují uchovávat předchozí pokyny a odpovídat na výzvy podle sekcí, zatímco starší systémy zpracovávají singulární příkazy. Například Siri odpovídá na jednu otázku najednou.

Zadávejte chatbotům tři až pět úkolů současně, abyste otestovali, jak dobře analyzují složité výzvy. Méně sofistikované modely nedokážou zpracovat tolik informací. Obrázek níže ukazuje poruchu HuggingChat ve výzvě ve třech krocích – zastaví se v kroku jedna a odkloní se od tématu.

Poslední řádky HuggingChat jsou již nesouvislé.

ChatGPT rychle dokončí stejnou výzvu a generuje bezchybné, inteligentní odpovědi na každém kroku.

Bing Chat poskytuje zkrácenou odpověď na tři kroky. Jeho přísná omezení zakazují zbytečně dlouhé výstupy, které plýtvají zpracovatelským výkonem.

3. Včasnost

Protože školení AI stojí obrovské zdroje, většina vývojářů omezuje datové sady na konkrétní období. Vezměte ChatGPT jako příklad. Má uzávěrku znalostí v září 2021 – nemůžete žádat o aktualizace počasí, zprávy nebo nejnovější vývoj. Zde ChatGPT říká, že nemá přístup k informacím v reálném čase.

Bard má přístup k internetu. Získává data z Google SERP, takže můžete klást širší škálu otázek, např. nedávné události, novinky a předpovědi.

Stejně tak Bing Chat stahuje informace v reálném čase ze svého vyhledávače.

Bing Chat a Bard poskytují včasné a aktuální informace, ale ty poskytují podrobnější odpovědi. Bing pouze prezentuje data tak, jak jsou. Všimnete si, že jeho výstupy se často doslovně shodují s frázováním a tónem propojených zdrojů.

4. Relevantnost

Chatboti musí poskytovat relevantní výstupy. Při odpovídání by měli zvážit doslovný a kontextový význam vašich výzev. Vezměte si tento rozhovor jako příklad. Naše osobnost potřebuje nový telefon, ale má pouze 1 000 $ – ChatGPT nepřekračuje rozpočet.

Při testování relevance zkuste vytvořit dlouhé pokyny. Méně sofistikovaní chatboti mají tendenci spouštět se po tečně, když jsou krmeni matoucími pokyny. HuggingChat může například skládat fiktivní příběhy. Ale může se odchýlit od hlavního tématu, pokud nastavíte příliš mnoho pravidel a pokynů.

5. Kontextová paměť

Kontextová paměť pomáhá umělé inteligenci vytvářet přesný a spolehlivý výstup. Namísto toho, aby vaše otázky brali jako nominální hodnotu, spojují dohromady podrobnosti, které zmiňujete. Vezměte si tento rozhovor jako příklad. Bing Chat spojuje dvě samostatné zprávy a tvoří užitečnou a stručnou odpověď.

Stejně tak kontextová paměť umožňuje chatbotům zapamatovat si pokyny. Tento obrázek ukazuje ChatGPT napodobující způsob, jakým fiktivní postava mluví během několika chatů.

Otestujte tuto funkci sami tím, že budete důsledně odkazovat na předchozí prohlášení. Dejte chatbotům různé informace a pak je přinuťte, aby si je v pozdějších odpovědích vybavili.

Kontextová paměť je omezená. Bing Chat zahajuje nové konverzace každých 20 kol, zatímco ChatGPT nedokáže zpracovat výzvy více než 3 000 tokenů.

6. Bezpečnostní omezení

AI ne vždy funguje tak, jak bylo zamýšleno. Může způsobit chybný trénink technologie strojového učení k páchání různých chyb, od drobných matematických chyb až po problematické komentáře. Vzít Microsoft Tay jako příklad. Uživatelé Twitteru využili jeho model učení bez dozoru a podmínili ho tak, aby říkal rasové nadávky.

Naštěstí se světoví tech lídři poučili z chyby Microsoftu. Přestože je učení bez dozoru nákladově efektivní a pohodlné, systémy umělé inteligence jsou náchylné ke klamání. Vývojáři se proto v dnešní době primárně spoléhají na učení pod dohledem. Chatboti jako ChatGPT se stále učí z konverzací, ale jejich školitelé nejprve filtrují informace.

Od společností AI očekávejte odlišné pokyny. Méně přísná omezení ChatGPT vyhovují širší škále úkolů, ale jsou slabá proti zneužití. Mezitím Bing Chat dodržuje přísnější limity. I když pomáhají v boji proti pokusům o zneužití, také brání funkčnosti. Bing automaticky ukončí potenciálně škodlivé konverzace.

7. Předsudky AI

AI je ze své podstaty neutrální. Jeho nedostatek preferencí a emocí ho činí neschopným vytvářet si názory – pouze předkládá informace, které zná. Zde je návod, jak ChatGPT reaguje na subjektivní témata.

Navzdory této neutralitě zkreslení AI stále vznikají. Vycházejí ze vzorů, datových sad, algoritmů a modelů, které vývojáři používají. AI může být nestranná, ale lidé ne.

Například, Brookingsova instituce tvrdí, že ChatGPT demonstruje levicové politické předsudky. OpenAI tato obvinění samozřejmě popírá. Ale aby se předešlo podobným problémům s novějšími modely, ChatGPT se zcela vyhýbá názorovým výstupům.

Stejně tak se Bing Chat vyhýbá citlivým, subjektivním záležitostem.

Posuďte, jak se umělá inteligence zkresluje tím, že budete klást otevřené otázky založené na názorech. Mluvte o tématech bez správné nebo špatné odpovědi – méně sofistikovaní chatboti budou pravděpodobně projevovat neopodstatněné preference vůči konkrétním skupinám.

8. Reference

Umělá inteligence jen zřídka kontroluje fakta. Pouze získává informace ze svých datových sad a přeformuluje je prostřednictvím jazykových modelů. Bohužel omezený trénink způsobuje halucinace AI. Pro výzkum můžete stále používat generativní nástroje AI, ale ujistěte se, že si fakta ověřujete sami. Výstup berte s rezervou.

Bing Chat zjednodušuje proces ověřování faktů tím, že uvádí své reference po každém výstupu.

Bard AI neuvádí své zdroje, ale generuje aktualizované, podrobné vysvětlení spuštěním vyhledávacích dotazů Google. Hlavní body získáte ze SERPů.

ChatGPT je náchylný k nepřesnostem. Jeho přerušení znalostí do roku 2021 mu brání odpovídat na otázky o nedávných událostech a incidentech.

Vytvořte nové způsoby testování přesnosti chatbotů

Umělá inteligence není vrchol a konec všech technologií. I když sofistikované systémy umělé inteligence a jazykové modely předvádějí působivé výkony, dopouštějí se také chyb a nesrovnalostí. Prohlížejte chatboty skepticky. Platformy řízené umělou inteligencí můžete používat, pouze pokud rozumíte jejich funkcím a omezením.

Přestože existují desítky chatbotů napříč platformami, jejich spolehlivost a přesnost vás může zklamat. Jen ztratíte čas jejich testováním. Pro zajištění kvalitních výsledků doporučujeme zaměřit se na tři nejrobustnější modely na trhu: ChatGPT, Bing AI a Google Bard.

About Technology - denizatm.com

8 klíčových faktorů, které je třeba vzít v úvahu při testování přesnosti chatbotů AI

1. Počítání

2. Chápání

3. Včasnost

4. Relevantnost

5. Kontextová paměť

6. Bezpečnostní omezení

7. Předsudky AI

8. Reference

Vytvořte nové způsoby testování přesnosti chatbotů

kategorie

Recent Post

Jak vytvořit jídlo v aplikaci Lifesum

Jak si vybrat altcoin k investování

Jak přidat reakce na texty nebo zprávy iMessage na iPhone