22.6.2025

Mikä on paras LLM?

LLM, suuri kielimalli, tai yleisesti vain “tekoäly” on asia, joka on noussut roimasti suosioon viimeisen parin vuoden aikana. Suosituin näistä on OpenAI:n ChatGPT. Mutta onko se paras?

OpenAI, Google, Microsoft, ja monet muut tarjoavat käyttäjillensä ilmaiseksi UI:n, jossa he voivat käyttää heidän LLM:iä, kuten Microsoft Copilot tai ChatGPT.com. Näiden takana on kuitenkin vain muutama eri LLM. Suurin osa internetissä olevista “tekoälyistä” (Microsoft Copilot, ChatGPT) käyttää samaa GPT 4 -kielimallia. Tässä tutkimuksessa tutkimme vain eri kielimallien suorituskykyä, eikä eri käyttöliittymiä tai niiden tarjoamia härpäkkeitä.

Vertailemme näitä kielimalleja (ja niiden eri versioita) toisiinsa:

GPT (OpenAI)
Gemini (Google)
DeepSeek (DeepSeek, Kiina)
Grok (xAI)
Gemma (Google)
Claude (Anthropic)
Llama (Meta; Facebook)
Mistral (Mistral, Ranska)
Tongyi Qianwen “Qwen” (通义千问) (Alibaba, Kiina)
o-sarja (OpenAI)

Mitä on “paras”, ja miten se määritetään?

Kielimalleja käytetään moneen eri tarkoitukseen, ja mikään ei ole välttämättä paras kaikissa. “Parhaus” riippuu tehtävän tyypistä, käyttäjän mielipiteistä ja monesta muusta tekijästä. Kielimallit ovat myös rakennettu tuottamaan satunnaisia ulostuloja (jokainen vastaus on uniikki), joten sama kielimalli voi tuottaa sekä huonoimman, että parhaan vastauksen johonkin kysymykseen.

Tämän takia olemme jakaneet kysymykset moneen eri kategoriaan, ja käytämme “tuomarina” Gemini 2.5 Flash -mallia. Tuomari tässä tilanteessa on puolueellinen Googlen malleille, mutta analyysin mukaan tämä ei vaikuta suuresti tuloksiin, koska tuomari ei näe, mistä vastaukset ovat tulleet.

En jaksa lukea, haluan vain yhden yksinkertaisen vastauksen:

Googlen juuri julkaistu Gemini 2.5 on tällä hetkellä (kesäkuu 2025) monella tavalla voittava vaihtoehto. Se on saatavissa kolmessa eri “koossa”, jotka ovat Pro, Flash ja Flash Lite. Testeissämme viisi parasta oli (laskematta kokeellisia malleja, jotka eivät ole saatavilla tavalliselle käyttäjälle):

[1] Gemini 2.5 Pro
[2] o4 mini
[3] Gemini 2.5 Flash
[4] Gemini 2.5 Flash Lite
[5] Grok 3

Miksi? Miten?

Tulokset:

Malli	ELO	Parametrejä (B)	joista aktiivisia (B)	Sisään (€/MTok)	Ulos (€/MTok)
Gemini 2.5 Pro	1328			1.25	10.00
Gemini 2.5 Pro Preview	1319			1.25	10.00
Gemini 2.5 Flash Preview 04-17	1251			0.15	0.60
Gemini 2.5 Flash Thinking Preview 05-20	1244			0.15	3.50
o4 Mini	1237			1.10	4.40
Gemini 2.5 Flash	1217			0.30	2.50
Gemini 2.5 Flash Preview 05-20	1202			0.15	0.60
Gemini 2.5 Flash Lite Preview 06-17	1200			0.10	0.40
Grok 3 Beta	1184			3.00	15.00
GPT-4.1	1179			2.00	8.00
ChatGPT-4o Latest	1177			5.00	15.00
Gemini 2.5 Flash Thinking Preview 04-17	1169			0.15	3.50
Deepseek R1 0528	1151	671	37	0.00	0.00
Grok 3 Mini Beta	1139			0.30	0.50
Gemini 2.0 Flash	1129			0.10	0.40
o4 Mini High	1125			1.10	4.40
Claude Sonnet 4	1118			3.00	15.00
Mistral Medium 3	1117			0.40	2.00
Gemini Pro 1.5	1111			1.25	5.00
Claude 3.7 Sonnet Thinking	1111			3.00	15.00
Deepseek R1	1078	671	37	0.00	0.00
Claude 3.7 Sonnet	1073			3.00	15.00
Gemini 2.0 Flash Lite 001	1056			0.08	0.30
Deepseek V3 0324	1049	671	37	0.00	0.00
GPT-4.1 Mini	1035			0.40	1.60
Gemma 3 12B	1000	12	12	0.00	0.00
Deepseek V3	979	671	37	0.00	0.00
Qwen3 235B A22B	978	235	22	0.00	0.00
Gemma 3 27B	978	27	27	0.00	0.00
Llama 4 Maverick	948	402	17	0.00	0.00
GPT-4.1 Nano	941			0.10	0.40
Reka Flash 3	914	21	21	0.00	0.00
GPT-4o Mini	882			0.15	0.60
MiniMax-M1	866	456	46	0.00	0.00
Gemma 3n E4B	859	4	2	0.00	0.00
Mistral Small 3.1	856	24	24	0.00	0.00
Gemma 2 27B	853	27	27	0.00	0.00
Claude 3.5 Haiku	853			0.80	4.00
Qwen3 32B	852	32	32	0.00	0.00
Devstral Small	828	24	24	0.00	0.00
Llama 4 Scout	825	109	17	0.00	0.00
Qwen3 30B A3B	818	30	3	0.00	0.00
Llama 3.3 70B	793	70	70	0.00	0.00
Deepseek R1 Distill Llama 70B	774	70	70	0.00	0.00
Qwen3 14B	773	14	14	0.00	0.00
Gemini Flash 1.5 8B	771	8	8	0.04	0.15
Gemma 2 9B	750	9	9	0.00	0.00
Qwen3 8B	719	8	8	0.00	0.00
Qwen3 4B	701	4	4	0.00	0.00
Deepseek R1 0528 Qwen3 8B	641	8	8	0.00	0.00
Gemma 3 4B	634	4	4	0.00	0.00
Qwen3 1.7B	592	1.7	1.7	0.00	0.00
Llama 3.1 8B	370	8	8	0.00	0.00
Qwen3 0.6B	364	0.6	0.6	0.00	0.00
Llama 3.2 3B	341	3	3	0.00	0.00
Llama 3.2 1B	302	1	1	0.00	0.00

Avataan näitä tuloksia hieman:

Mallit kilpailivat toisiaan vastaan monessa eri simuloidussa 1v1 kilpailussa. Kuten shakissakin, voittajan ELO kasvoi, kun häviäjällä laski.

Mallien parametrejen määrä (niillä, jotka ovat avoimesti tutkittavissa) on listattu kahdella eri tavalla: kokonaisvaltaisesti, ja vain aktiiviset. Mitä enemmän mallilla on parametrejä, sitä enemmän se vie tilaa (~2GB / B parametriä). Mitä enemmän sillä on aktiivisia parametrejä, sitä enemmän resursseja se tarvitsee (eli on hitaampi, ja maksaa enemmän käyttää). MoE-teknologiaa käyttävät kielimallit, kuten DeepSeek, eivät aktivoi kaikkia parametrejä samaan aikaan, joka tekee prosessoinnista nopeampaa.

Mallien API-hinnat virallisilta tarjoajilta näkyvät myös kaaviossa. Avoimesti julkaistuja malleja, kuten Gemma tai DeepSeek voi pyörittää kuka vaan millä tahansa laittella, joten API-hinta on käytännössä 0€. MTok tässä tilanteessa tarkoittaa miljoonaa tokenia.

Johtopäätökset

Gemini 2.5 on helposti paras malli. ChatGPT.com-sivustolla ilmaiseksi oleva GPT4o-mini on tässä vertailussa sijalla 33 eli kovin alhaalla. Pro-tilauksen omistajille saatavilla oleva ChatGPT-4o on sijalla 11, alempana kuin Googlen halvin Flash Lite. Samoilta sijoilta löytyy myös DeepSeekin uudempi R1 0528, joka on kaikille avoimesti saatavilla.

Ylipäätänsä voimme katsoa, että tässä tutkimuksessa käytetyille aihealueille Googlen Gemini voittaa helposti. Avoimesti saatavilla olevista malleista DeepSeek voittaa myös suurella erolla muihin.

Tietokoneen välimuistiin mahtuvista (alle 50B parametriä) Gemma 3 12B vaikuttaa olevan paras.

Mitä näistä minun kannattaisi käyttää?

Kuten aiemmin on mainittu, melkein jokaiseen tehtävään on eri kielimalli, joka tuo parhaat tulokset, sekä jokaisella käyttäjällä on omat suosikit. Paras vaihtoehto löytyy yleensä kokeilemalla.

Osoitteesta lmarena.ai löytyy hyvät työkalut vertailla eri kielimalleja toisiinsa. Ylhäältä voi valita “Battle”:n lisäksi myös “Direct Chat” tai “Compare”. Moneen tehtävään kuitenkin riittää Gemini.

Olemme suorittaneet myös kategoriakohtaisen vertailun, jonka tulokset julkaistaan myöhemmin.