Artykuły

Tag: MATH

Najważniejsze benchmarki oceny LLM-ów

Autor wpisu Autor: admin
Data wpisu 22 listopada, 2025

Wraz z dynamicznym rozwojem dużych modeli językowych (LLM) coraz większego znaczenia nabiera ich rzetelna ewaluacja. Benchmarki stanowią kluczowe narzędzie pozwalające na obiektywne porównanie możliwości różnych modeli i śledzenie postępu w dziedzinie sztucznej inteligencji.

Czytaj dalej

Tagi AI, benchmarki dla LLM-ów, BigBench, Chatbot Arena, Grade School Math 8K, GSM8K, HellaSwag, HumanEval, LLM, Massive Multitask Language Understanding, MATH, MMLU, Physical Interaction Question Answering, PIQA, TruthfulQA

P	W	Ś	C	P	S	N
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31