Mikä on paras LLM?


LLM, suuri kielimalli, tai yleisesti vain “tekoäly” on asia, joka on noussut roimasti suosioon viimeisen parin vuoden aikana. Suosituin näistä on OpenAI:n ChatGPT. Mutta onko se paras?

OpenAI, Google, Microsoft, ja monet muut tarjoavat käyttäjillensä ilmaiseksi UI:n, jossa he voivat käyttää heidän LLM:iä, kuten Microsoft Copilot tai ChatGPT.com. Näiden takana on kuitenkin vain muutama eri LLM. Suurin osa internetissä olevista “tekoälyistä” (Microsoft Copilot, ChatGPT) käyttää samaa GPT 4 -kielimallia. Tässä tutkimuksessa tutkimme vain eri kielimallien suorituskykyä, eikä eri käyttöliittymiä tai niiden tarjoamia härpäkkeitä.

Vertailemme näitä kielimalleja (ja niiden eri versioita) toisiinsa:

  • GPT (OpenAI)
  • Gemini (Google)
  • DeepSeek (DeepSeek, Kiina)
  • Grok (xAI)
  • Gemma (Google)
  • Claude (Anthropic)
  • Llama (Meta; Facebook)
  • Mistral (Mistral, Ranska)
  • Tongyi Qianwen “Qwen” (通义千问) (Alibaba, Kiina)
  • o-sarja (OpenAI)

Mitä on “paras”, ja miten se määritetään?

Kielimalleja käytetään moneen eri tarkoitukseen, ja mikään ei ole välttämättä paras kaikissa. “Parhaus” riippuu tehtävän tyypistä, käyttäjän mielipiteistä ja monesta muusta tekijästä. Kielimallit ovat myös rakennettu tuottamaan satunnaisia ulostuloja (jokainen vastaus on uniikki), joten sama kielimalli voi tuottaa sekä huonoimman, että parhaan vastauksen johonkin kysymykseen.

Tämän takia olemme jakaneet kysymykset moneen eri kategoriaan, ja käytämme “tuomarina” Gemini 2.5 Flash -mallia. Tuomari tässä tilanteessa on puolueellinen Googlen malleille, mutta analyysin mukaan tämä ei vaikuta suuresti tuloksiin, koska tuomari ei näe, mistä vastaukset ovat tulleet.

En jaksa lukea, haluan vain yhden yksinkertaisen vastauksen:

Google Gemini

Googlen juuri julkaistu Gemini 2.5 on tällä hetkellä (kesäkuu 2025) monella tavalla voittava vaihtoehto. Se on saatavissa kolmessa eri “koossa”, jotka ovat Pro, Flash ja Flash Lite. Testeissämme viisi parasta oli (laskematta kokeellisia malleja, jotka eivät ole saatavilla tavalliselle käyttäjälle):

[1] Gemini 2.5 Pro
[2] o4 mini
[3] Gemini 2.5 Flash
[4] Gemini 2.5 Flash Lite
[5] Grok 3

Miksi? Miten?

Tulokset:

MalliELOParametrejä (B)joista aktiivisia (B)Sisään (€/MTok)Ulos (€/MTok)
Gemini 2.5 Pro13281.2510.00
Gemini 2.5 Pro Preview13191.2510.00
Gemini 2.5 Flash Preview 04-1712510.150.60
Gemini 2.5 Flash Thinking Preview 05-2012440.153.50
o4 Mini12371.104.40
Gemini 2.5 Flash12170.302.50
Gemini 2.5 Flash Preview 05-2012020.150.60
Gemini 2.5 Flash Lite Preview 06-1712000.100.40
Grok 3 Beta11843.0015.00
GPT-4.111792.008.00
ChatGPT-4o Latest11775.0015.00
Gemini 2.5 Flash Thinking Preview 04-1711690.153.50
Deepseek R1 05281151671370.000.00
Grok 3 Mini Beta11390.300.50
Gemini 2.0 Flash11290.100.40
o4 Mini High11251.104.40
Claude Sonnet 411183.0015.00
Mistral Medium 311170.402.00
Gemini Pro 1.511111.255.00
Claude 3.7 Sonnet Thinking11113.0015.00
Deepseek R11078671370.000.00
Claude 3.7 Sonnet10733.0015.00
Gemini 2.0 Flash Lite 00110560.080.30
Deepseek V3 03241049671370.000.00
GPT-4.1 Mini10350.401.60
Gemma 3 12B100012120.000.00
Deepseek V3979671370.000.00
Qwen3 235B A22B978235220.000.00
Gemma 3 27B97827270.000.00
Llama 4 Maverick948402170.000.00
GPT-4.1 Nano9410.100.40
Reka Flash 391421210.000.00
GPT-4o Mini8820.150.60
MiniMax-M1866456460.000.00
Gemma 3n E4B859420.000.00
Mistral Small 3.185624240.000.00
Gemma 2 27B85327270.000.00
Claude 3.5 Haiku8530.804.00
Qwen3 32B85232320.000.00
Devstral Small82824240.000.00
Llama 4 Scout825109170.000.00
Qwen3 30B A3B8183030.000.00
Llama 3.3 70B79370700.000.00
Deepseek R1 Distill Llama 70B77470700.000.00
Qwen3 14B77314140.000.00
Gemini Flash 1.5 8B771880.040.15
Gemma 2 9B750990.000.00
Qwen3 8B719880.000.00
Qwen3 4B701440.000.00
Deepseek R1 0528 Qwen3 8B641880.000.00
Gemma 3 4B634440.000.00
Qwen3 1.7B5921.71.70.000.00
Llama 3.1 8B370880.000.00
Qwen3 0.6B3640.60.60.000.00
Llama 3.2 3B341330.000.00
Llama 3.2 1B302110.000.00

Avataan näitä tuloksia hieman:

Mallit kilpailivat toisiaan vastaan monessa eri simuloidussa 1v1 kilpailussa. Kuten shakissakin, voittajan ELO kasvoi, kun häviäjällä laski.

Mallien parametrejen määrä (niillä, jotka ovat avoimesti tutkittavissa) on listattu kahdella eri tavalla: kokonaisvaltaisesti, ja vain aktiiviset. Mitä enemmän mallilla on parametrejä, sitä enemmän se vie tilaa (~2GB / B parametriä). Mitä enemmän sillä on aktiivisia parametrejä, sitä enemmän resursseja se tarvitsee (eli on hitaampi, ja maksaa enemmän käyttää). MoE-teknologiaa käyttävät kielimallit, kuten DeepSeek, eivät aktivoi kaikkia parametrejä samaan aikaan, joka tekee prosessoinnista nopeampaa.

Mallien API-hinnat virallisilta tarjoajilta näkyvät myös kaaviossa. Avoimesti julkaistuja malleja, kuten Gemma tai DeepSeek voi pyörittää kuka vaan millä tahansa laittella, joten API-hinta on käytännössä 0€. MTok tässä tilanteessa tarkoittaa miljoonaa tokenia.

Johtopäätökset

Gemini 2.5 on helposti paras malli. ChatGPT.com-sivustolla ilmaiseksi oleva GPT4o-mini on tässä vertailussa sijalla 33 eli kovin alhaalla. Pro-tilauksen omistajille saatavilla oleva ChatGPT-4o on sijalla 11, alempana kuin Googlen halvin Flash Lite. Samoilta sijoilta löytyy myös DeepSeekin uudempi R1 0528, joka on kaikille avoimesti saatavilla.

Ylipäätänsä voimme katsoa, että tässä tutkimuksessa käytetyille aihealueille Googlen Gemini voittaa helposti. Avoimesti saatavilla olevista malleista DeepSeek voittaa myös suurella erolla muihin.

Tietokoneen välimuistiin mahtuvista (alle 50B parametriä) Gemma 3 12B vaikuttaa olevan paras.

Mitä näistä minun kannattaisi käyttää?

Kuten aiemmin on mainittu, melkein jokaiseen tehtävään on eri kielimalli, joka tuo parhaat tulokset, sekä jokaisella käyttäjällä on omat suosikit. Paras vaihtoehto löytyy yleensä kokeilemalla.

Osoitteesta lmarena.ai löytyy hyvät työkalut vertailla eri kielimalleja toisiinsa. Ylhäältä voi valita “Battle”:n lisäksi myös “Direct Chat” tai “Compare”. Moneen tehtävään kuitenkin riittää Gemini.

Olemme suorittaneet myös kategoriakohtaisen vertailun, jonka tulokset julkaistaan myöhemmin.

Hyödyllisiä linkkejä