Pravděpodobně jste slyšeli o OpenAI GPT, ale nejsou to jediné LLM na bloku.
Klíčové věci
- OpenAI GPT-4 je nejpokročilejší a nejrozšířenější model velkého jazyka s 1,76 bilionu parametrů a multimodálními schopnostmi.
- Anthropic's Claude 2 konkuruje GPT-4 v úkolech kreativního psaní a drží se, i když má méně zdrojů.
- PaLM 2 od Googlu, i když není zabiják GPT-4, je výkonný jazykový model se silnými vícejazyčnými a kreativními schopnostmi. Falcon-180B je model s otevřeným zdrojovým kódem, který konkuruje komerčním gigantům a s GPT-3.5 obstojí od špičky k patě.
Je sezóna umělé inteligence a technologické společnosti chrlí velké jazykové modely jako chleba z pekárny. Nové modely se uvolňují rychle a je příliš těžké je sledovat.
Ale uprostřed záplavy nových verzí se jen několik modelů dostalo na vrchol a osvědčilo se jako opravdoví uchazeči ve velkém prostoru jazykových modelů. Jak se blíží konec roku 2023, dali jsme dohromady šest nejpůsobivějších velkých jazykových modelů, které byste měli vyzkoušet.
1. OpenAI GPT-4
GPT-4 je dosud nejpokročilejší veřejně dostupný model velkého jazyka. Vyvinutý OpenAI a vydán v březnu 2023, GPT-4 je nejnovější iterací ze série Generative Pre-trained Transformer která začala v roce 2018. Díky svým obrovským schopnostem se GPT-4 stal jedním z nejpoužívanějších a nejoblíbenějších velkých jazykových modelů na světě.
Ačkoli to není oficiálně potvrzeno, zdroje odhadují, že GPT-4 může obsahovat ohromujících 1,76 bilionu parametrů, přibližně desetkrát více než jeho předchůdce GPT-3.5 a pětkrát větší než vlajková loď společnosti Google, PaLM 2. Toto masivní měřítko umožňuje multimodální schopnosti GPT-4, které mu umožňují zpracovávat text i obrázky jako vstup. V důsledku toho může GPT-4 kromě textu interpretovat a popisovat vizuální informace, jako jsou diagramy a snímky obrazovky. Jeho multimodální povaha poskytuje více lidské chápání reálných dat.
Ve vědeckých benchmarcích GPT-4 výrazně překonává ostatní současné modely napříč různými testy. Zatímco samotné srovnávací testy plně neukazují silné stránky modelu, případy použití v reálném světě ukázaly, že GPT-4 je výjimečně zběhlý v intuitivním řešení praktických problémů. GPT-4 je v současné době účtováno 20 USD měsíčně a přístupné prostřednictvím plánu ChatGPT Plus.
2. Anthropic's Claude 2
I když není tak populární jako GPT-4, Claude 2, vyvinutý společností Anthropic AI, může v několika oblastech odpovídat technickým standardům GPT -4 a výkonu v reálném světě. V některých standardizovaných testech, včetně vybraných zkoušek, Claude 2 překonává GPT-4. Jazykový model AI má také mnohem lepší kontextové okno s přibližně 100 000 tokeny ve srovnání s modely GPT -4 s 8k a 32k tokeny. Ačkoli větší délka kontextu ne vždy vede k lepšímu výkonu, rozšířená kapacita Claude 2 poskytuje jasné výhody, jako je zpracování celých knih o 75 000 slovech pro analýzu.
V celkovém výkonu zůstává GPT-4 lepší, ale naše interní testování ukazuje, že Claude 2 ji překonává v několika úkolech tvůrčího psaní. Claude 2 na základě našich hodnocení také vede GPT-4 v programovacích a matematických dovednostech, ale vyniká tím, že poskytuje kreativní odpovědi podobné lidským. Když jsme šestkrát z deseti vyzvali všechny modely na tomto seznamu, aby napsali nebo přepsali kreativní dílo, zvolili jsme výsledek Claude 2 pro jeho přirozeně znějící výsledky jako u lidí. V současné době, Claude 2 je k dispozici zdarma prostřednictvím chatbota Claude AI. K dispozici je také placený plán za 20 USD pro přístup k dalším funkcím.
Navzdory tomu, že má menší finanční podporu než giganti jako OpenAI a Microsoft, model AI Claude 2 společnosti Anthropic si drží své místo v porovnání s populárními modely GPT a řadou PaLM od Googlu. Na AI s méně zdroji je Claude 2 působivě konkurenceschopný. Pokud budete nuceni vsadit na to, který stávající model má v blízké budoucnosti největší šanci konkurovat GPT, Claude 2 se zdá být nejbezpečnější sázkou. Ačkoli je Claude 2 překonán ve financování, pokročilé schopnosti Claude 2 naznačují, že může jít od špičky k patě dobře financovaní monstra (ačkoli stojí za zmínku, že společnost Google poskytla několik velkých příspěvků antropické). Tento model překonává svou váhovou kategorii a ukazuje se slibný jako nastupující vyzyvatel.
3. OpenAI GPT-3.5
Přestože je GPT-3.5 a jeho 175 miliard parametrů zastíněno vydáním GPT-4, není radno podceňovat. Prostřednictvím iterativního jemného ladění a upgradů zaměřených na výkon, přesnost a bezpečnost ušel GPT-3.5 dlouhou cestu od původního modelu GPT-3. Ačkoli postrádá multimodální schopnosti GPT -4 a zaostává v délce kontextu a počtu parametrů, GPT-3.5 zůstává vysoce schopný, přičemž GPT-4 je jediným modelem, který dokáže překonat svůj všestranný výkon rozhodně.
Navzdory tomu, že se jedná o model druhé úrovně v rodině GPT, GPT-3.5 se může udržet a dokonce překonat vlajkové modely Google a Meta v několika benchmarcích. V souběžných testech matematických a programovacích dovedností proti PaLM 2 od Google nebyly rozdíly markantní, přičemž GPT-3.5 měl v některých případech dokonce mírný náskok. Kreativnější úkoly, jako je humor a narativní psaní, způsobily, že GPT-3.5 rozhodně pokročil.
Takže zatímco GPT-4 představuje nový milník v AI, GPT-3.5 zůstává působivě výkonným modelem, který dokáže konkurovat a někdy i předčí i ty nejpokročilejší alternativy. Jeho neustálé vylepšování zajišťuje, že zůstane relevantní i vedle zářivějších modelů nové generace.
4. PaLM 2 od Googlu
Při hodnocení schopností modelu AI je osvědčeným vzorcem přečíst si technickou zprávu a zkontrolujte skóre benchmarků, ale vše, co jste se naučili, berte s rezervou a otestujte model vy sám. Jakkoli se to může zdát kontraintuitivní, výsledky srovnávacích testů se u některých modelů umělé inteligence ne vždy shodují s výkonem v reálném světě. Na papíře měl být PaLM 2 od Googlu zabijákem GPT-4, přičemž oficiální výsledky testů naznačovaly, že se v některých benchmarcích shoduje s GPT-4. Při každodenním používání se však objevuje jiný obrázek.
V logickém uvažování, matematice a kreativitě PaLM 2 zaostává za GPT-4. Za Claudem od Anthropic také zaostává v řadě úkolů tvůrčího psaní. I když se mu nedaří dostát svému účtu jako zabiják GPT-4, PaLM 2 od Googlu zůstává výkonným jazykovým modelem sama o sobě, s nesmírnými schopnostmi. Velká část negativního sentimentu kolem toho pramení spíše ze srovnání s modely jako GPT-4 než z vyloženě špatného výkonu.
S 340 miliardami parametrů patří PaLM 2 mezi největší světové modely. Zvláště vyniká ve vícejazyčných úlohách a má silné matematické a programovací schopnosti. I když v tom není PaLM 2 nejlepší, je také docela účinný při kreativních úkolech, jako je psaní. Takže zatímco benchmarky vykreslovaly optimistický obrázek, který se plně nenaplnil, PaLM 2 stále prokazuje působivé schopnosti umělé inteligence, i když nepřevyšuje všechny konkurenty ve všech oblastech.
5. Falcon-180B od TII
Pokud jste nedrželi krok s rychlým tempem vydávání jazykových modelů AI, pravděpodobně jste se nikdy nesetkali s Falconem-180B. Falcon-180 se 180 miliardami parametrů, vyvinutý Institutem technologických inovací Spojených arabských emirátů, je jedním z nejvýkonnějších open-source jazykové modely tam venku, i když jim chybí rozpoznávání jmen modelů GPT nebo rozšířené používání Meta's Lama 2. Ale nenechte se mýlit - Falcon-180B se může postavit špičce k patě s těmi nejlepšími ve své třídě.
Výsledky srovnávacích testů ukazují, že Falcon-180B překonává většinu modelů s otevřeným zdrojovým kódem a konkuruje komerčním gigantům, jako jsou PaLM 2 a GPT-3.5. Při testování matematiky, kódování, uvažování a kreativního psaní dokonce překonal GPT-3.5 a PaLM 2 na časy. Pokud bychom hodnotili GPT-4, GPT-3.5 a Falcon-180B, zařadili bychom Falcon-180B přímo mezi GPT-4 a GPT-3.5 pro jeho silné stránky v několika případech použití.
I když nemůžeme s jistotou říci, že je lepší než GPT-3.5 v celkovém výkonu, je to případ. I když je tento model nejasný, zaslouží si pozornost tím, že odpovídá nebo překračuje možnosti známějších alternativ. Model Falcon-180B si můžete vyzkoušet na Objímání obličeje (open-source LLM platforma).
Llama 2, velký jazykový model Meta AI se 70 miliardami parametrů, staví na svém předchůdci Llama 1. I když je Llama 2 menší než přední modely, výrazně překonává většinu veřejně dostupných LLM s otevřeným zdrojovým kódem v benchmarcích a použití v reálném světě. Výjimkou by byl Falcon-180B.
Testovali jsme Llama 2 proti GPT-4, GPT-3.5, Claude 2 a PaLM 2, abychom změřili její schopnosti. Není překvapením, že GPT-4 předčila Llamu 2 téměř ve všech parametrech. Nicméně, Llama 2 obstála proti GPT-3.5 a PaLM 2 v několika hodnoceních. I když by bylo nepřesné tvrdit, že Llama 2 je lepší než PaLM 2, Llama 2 vyřešila mnoho problémů, které PaLM 2 zarazily, včetně kódovacích úloh. Claude 2 a GPT-3.5 v některých oblastech překonaly Llamu 2, ale rozhodně byly lepší pouze v omezeném počtu úkolů.
I když nepřekračuje možnosti největších proprietárních modelů, open-source Llama 2 je nad svou váhovou třídou. U veřejně dostupného modelu předvádí působivý výkon a ve vybraných hodnoceních konkuruje gigantům AI, jako je PaLM 2. Llama 2 poskytuje pohled na budoucí potenciál open-source jazykových modelů.
Rozdíl ve výkonu mezi modely AI se zužuje
Přestože se prostředí umělé inteligence vyvíjí bleskovým tempem, OpenAI GPT-4 zůstává lídrem balíčku. Zatímco však GPT-4 zůstává nedostižný v měřítku a výkonu, modely jako Claude 2 ukazují, že s dostatkem dovedností mohou menší modely soutěžit ve vybraných oblastech. PaLM 2 od Googlu, přestože zaostává za některými vznešenými očekáváními, stále vykazuje hluboké schopnosti. Falcon-180B dokazuje, že open-source iniciativy mohou stát bok po boku s průmyslovými titány, pokud mají dostatečné zdroje.