Mikä on paras LLM?
LLM, suuri kielimalli, tai yleisesti vain “tekoäly” on asia, joka on noussut roimasti suosioon viimeisen parin vuoden aikana. Suosituin näistä on OpenAI:n ChatGPT. Mutta onko se paras?
OpenAI, Google, Microsoft, ja monet muut tarjoavat käyttäjillensä ilmaiseksi UI:n, jossa he voivat käyttää heidän LLM:iä, kuten Microsoft Copilot tai ChatGPT.com. Näiden takana on kuitenkin vain muutama eri LLM. Suurin osa internetissä olevista “tekoälyistä” (Microsoft Copilot, ChatGPT) käyttää samaa GPT 4 -kielimallia. Tässä tutkimuksessa tutkimme vain eri kielimallien suorituskykyä, eikä eri käyttöliittymiä tai niiden tarjoamia härpäkkeitä.
Vertailemme näitä kielimalleja (ja niiden eri versioita) toisiinsa:
- GPT (OpenAI)
- Gemini (Google)
- DeepSeek (DeepSeek, Kiina)
- Grok (xAI)
- Gemma (Google)
- Claude (Anthropic)
- Llama (Meta; Facebook)
- Mistral (Mistral, Ranska)
- Tongyi Qianwen “Qwen” (通义千问) (Alibaba, Kiina)
- o-sarja (OpenAI)
Mitä on “paras”, ja miten se määritetään?
Kielimalleja käytetään moneen eri tarkoitukseen, ja mikään ei ole välttämättä paras kaikissa. “Parhaus” riippuu tehtävän tyypistä, käyttäjän mielipiteistä ja monesta muusta tekijästä. Kielimallit ovat myös rakennettu tuottamaan satunnaisia ulostuloja (jokainen vastaus on uniikki), joten sama kielimalli voi tuottaa sekä huonoimman, että parhaan vastauksen johonkin kysymykseen.
Tämän takia olemme jakaneet kysymykset moneen eri kategoriaan, ja käytämme “tuomarina” Gemini 2.5 Flash -mallia. Tuomari tässä tilanteessa on puolueellinen Googlen malleille, mutta analyysin mukaan tämä ei vaikuta suuresti tuloksiin, koska tuomari ei näe, mistä vastaukset ovat tulleet.
En jaksa lukea, haluan vain yhden yksinkertaisen vastauksen:
Googlen juuri julkaistu Gemini 2.5 on tällä hetkellä (kesäkuu 2025) monella tavalla voittava vaihtoehto. Se on saatavissa kolmessa eri “koossa”, jotka ovat Pro, Flash ja Flash Lite. Testeissämme viisi parasta oli (laskematta kokeellisia malleja, jotka eivät ole saatavilla tavalliselle käyttäjälle):
[1] Gemini 2.5 Pro
[2] o4 mini
[3] Gemini 2.5 Flash
[4] Gemini 2.5 Flash Lite
[5] Grok 3
Miksi? Miten?
Tulokset:
| Malli | ELO | Parametrejä (B) | joista aktiivisia (B) | Sisään (€/MTok) | Ulos (€/MTok) |
|---|---|---|---|---|---|
| Gemini 2.5 Pro | 1328 | 1.25 | 10.00 | ||
| Gemini 2.5 Pro Preview | 1319 | 1.25 | 10.00 | ||
| Gemini 2.5 Flash Preview 04-17 | 1251 | 0.15 | 0.60 | ||
| Gemini 2.5 Flash Thinking Preview 05-20 | 1244 | 0.15 | 3.50 | ||
| o4 Mini | 1237 | 1.10 | 4.40 | ||
| Gemini 2.5 Flash | 1217 | 0.30 | 2.50 | ||
| Gemini 2.5 Flash Preview 05-20 | 1202 | 0.15 | 0.60 | ||
| Gemini 2.5 Flash Lite Preview 06-17 | 1200 | 0.10 | 0.40 | ||
| Grok 3 Beta | 1184 | 3.00 | 15.00 | ||
| GPT-4.1 | 1179 | 2.00 | 8.00 | ||
| ChatGPT-4o Latest | 1177 | 5.00 | 15.00 | ||
| Gemini 2.5 Flash Thinking Preview 04-17 | 1169 | 0.15 | 3.50 | ||
| Deepseek R1 0528 | 1151 | 671 | 37 | 0.00 | 0.00 |
| Grok 3 Mini Beta | 1139 | 0.30 | 0.50 | ||
| Gemini 2.0 Flash | 1129 | 0.10 | 0.40 | ||
| o4 Mini High | 1125 | 1.10 | 4.40 | ||
| Claude Sonnet 4 | 1118 | 3.00 | 15.00 | ||
| Mistral Medium 3 | 1117 | 0.40 | 2.00 | ||
| Gemini Pro 1.5 | 1111 | 1.25 | 5.00 | ||
| Claude 3.7 Sonnet Thinking | 1111 | 3.00 | 15.00 | ||
| Deepseek R1 | 1078 | 671 | 37 | 0.00 | 0.00 |
| Claude 3.7 Sonnet | 1073 | 3.00 | 15.00 | ||
| Gemini 2.0 Flash Lite 001 | 1056 | 0.08 | 0.30 | ||
| Deepseek V3 0324 | 1049 | 671 | 37 | 0.00 | 0.00 |
| GPT-4.1 Mini | 1035 | 0.40 | 1.60 | ||
| Gemma 3 12B | 1000 | 12 | 12 | 0.00 | 0.00 |
| Deepseek V3 | 979 | 671 | 37 | 0.00 | 0.00 |
| Qwen3 235B A22B | 978 | 235 | 22 | 0.00 | 0.00 |
| Gemma 3 27B | 978 | 27 | 27 | 0.00 | 0.00 |
| Llama 4 Maverick | 948 | 402 | 17 | 0.00 | 0.00 |
| GPT-4.1 Nano | 941 | 0.10 | 0.40 | ||
| Reka Flash 3 | 914 | 21 | 21 | 0.00 | 0.00 |
| GPT-4o Mini | 882 | 0.15 | 0.60 | ||
| MiniMax-M1 | 866 | 456 | 46 | 0.00 | 0.00 |
| Gemma 3n E4B | 859 | 4 | 2 | 0.00 | 0.00 |
| Mistral Small 3.1 | 856 | 24 | 24 | 0.00 | 0.00 |
| Gemma 2 27B | 853 | 27 | 27 | 0.00 | 0.00 |
| Claude 3.5 Haiku | 853 | 0.80 | 4.00 | ||
| Qwen3 32B | 852 | 32 | 32 | 0.00 | 0.00 |
| Devstral Small | 828 | 24 | 24 | 0.00 | 0.00 |
| Llama 4 Scout | 825 | 109 | 17 | 0.00 | 0.00 |
| Qwen3 30B A3B | 818 | 30 | 3 | 0.00 | 0.00 |
| Llama 3.3 70B | 793 | 70 | 70 | 0.00 | 0.00 |
| Deepseek R1 Distill Llama 70B | 774 | 70 | 70 | 0.00 | 0.00 |
| Qwen3 14B | 773 | 14 | 14 | 0.00 | 0.00 |
| Gemini Flash 1.5 8B | 771 | 8 | 8 | 0.04 | 0.15 |
| Gemma 2 9B | 750 | 9 | 9 | 0.00 | 0.00 |
| Qwen3 8B | 719 | 8 | 8 | 0.00 | 0.00 |
| Qwen3 4B | 701 | 4 | 4 | 0.00 | 0.00 |
| Deepseek R1 0528 Qwen3 8B | 641 | 8 | 8 | 0.00 | 0.00 |
| Gemma 3 4B | 634 | 4 | 4 | 0.00 | 0.00 |
| Qwen3 1.7B | 592 | 1.7 | 1.7 | 0.00 | 0.00 |
| Llama 3.1 8B | 370 | 8 | 8 | 0.00 | 0.00 |
| Qwen3 0.6B | 364 | 0.6 | 0.6 | 0.00 | 0.00 |
| Llama 3.2 3B | 341 | 3 | 3 | 0.00 | 0.00 |
| Llama 3.2 1B | 302 | 1 | 1 | 0.00 | 0.00 |
Avataan näitä tuloksia hieman:
Mallit kilpailivat toisiaan vastaan monessa eri simuloidussa 1v1 kilpailussa. Kuten shakissakin, voittajan ELO kasvoi, kun häviäjällä laski.
Mallien parametrejen määrä (niillä, jotka ovat avoimesti tutkittavissa) on listattu kahdella eri tavalla: kokonaisvaltaisesti, ja vain aktiiviset. Mitä enemmän mallilla on parametrejä, sitä enemmän se vie tilaa (~2GB / B parametriä). Mitä enemmän sillä on aktiivisia parametrejä, sitä enemmän resursseja se tarvitsee (eli on hitaampi, ja maksaa enemmän käyttää). MoE-teknologiaa käyttävät kielimallit, kuten DeepSeek, eivät aktivoi kaikkia parametrejä samaan aikaan, joka tekee prosessoinnista nopeampaa.
Mallien API-hinnat virallisilta tarjoajilta näkyvät myös kaaviossa. Avoimesti julkaistuja malleja, kuten Gemma tai DeepSeek voi pyörittää kuka vaan millä tahansa laittella, joten API-hinta on käytännössä 0€. MTok tässä tilanteessa tarkoittaa miljoonaa tokenia.
Johtopäätökset
Gemini 2.5 on helposti paras malli. ChatGPT.com-sivustolla ilmaiseksi oleva GPT4o-mini on tässä vertailussa sijalla 33 eli kovin alhaalla. Pro-tilauksen omistajille saatavilla oleva ChatGPT-4o on sijalla 11, alempana kuin Googlen halvin Flash Lite. Samoilta sijoilta löytyy myös DeepSeekin uudempi R1 0528, joka on kaikille avoimesti saatavilla.
Ylipäätänsä voimme katsoa, että tässä tutkimuksessa käytetyille aihealueille Googlen Gemini voittaa helposti. Avoimesti saatavilla olevista malleista DeepSeek voittaa myös suurella erolla muihin.
Tietokoneen välimuistiin mahtuvista (alle 50B parametriä) Gemma 3 12B vaikuttaa olevan paras.
Mitä näistä minun kannattaisi käyttää?
Kuten aiemmin on mainittu, melkein jokaiseen tehtävään on eri kielimalli, joka tuo parhaat tulokset, sekä jokaisella käyttäjällä on omat suosikit. Paras vaihtoehto löytyy yleensä kokeilemalla.
Osoitteesta lmarena.ai löytyy hyvät työkalut vertailla eri kielimalleja toisiinsa. Ylhäältä voi valita “Battle”:n lisäksi myös “Direct Chat” tai “Compare”. Moneen tehtävään kuitenkin riittää Gemini.
Olemme suorittaneet myös kategoriakohtaisen vertailun, jonka tulokset julkaistaan myöhemmin.
