
Scientists from the University of Maryland and Microsoft conducted a test of large language models (LLM), in which they checked how bots deal with individual natural languages. They examined 26 languages. The OpenAI o3-mini-high, Google Gemini 1.5 Flash, Qwen2.5 (7B and 72B), Llama 3.1 (8B), Llama 3.3 (70B) and DeepSeek-R1 models were involved in the tests. They wrote queries (so-called prompts), which were not short and perfunctory, but extremely extensive and contextual (up to over 100,000 tokens). Based on the results of this experiment (query understanding, response quality), they published the OneRuler benchmark. Effect? Undoubtedly a big surprise. The Polish language took first place. Our native language has overtaken English – the language that is naturally the leading one in the context of AI training, taking only sixth place in this ranking.
Effectiveness of individual languages in prompting:
- Polish 88%
- French 87%
- Italian 86%
- Spanish 85%
- Russian 84%
- English 83.9%
- Ukrainian 83.5%
- Portuguese 82%
- German 81%
- Dutch 80%
- Norwegian 79%
- Swedish 78%
- Danish 77%
- Hungarian 76%
- Finnish 75%
- Czech 73%
- japanese 72%
- Vietnamese 71%
- Persian 70%
- Serbian 69%
- Korean 66%
- hindi 65%
- Chinese 62.1%
- Tamil 61%
- swahili 55%
- English 45%
https://cyfrowa.rp.pl/technologie/art43231871-boty-pokochaly-jezyk-polski-wygral-w-amerykanskich-badaniach
Posted by kurufasulyepilavv

10 Comments
czyli jak już wypuszczą llm kerfusia do domu to będzie mi szeptał najlepsze sprośności? kurde może to ai nie jest takie złe jak się jest Polakiem
garbage in garbage out
W sumie ma to sens, z całą naszą deklinacją itp- słowa są bardziej konkretne wskazując dokładniej o co chodzi. W wielu językach mimo że jest odmiana pewnego typu, to całość zależy bardziej od kontekstu- a kontekstu te narzędzia nie ogarniają.
Beka z apple bo ich AI nawet tu nie ma.
Aż twardnieje korzeń piastowski na samą myśl.
Zupełnie nieironicznie uważam że polski to nad-język. Istnieje powód dla którego w epoce zdominowanej przez prozę daliśmy światu dwoje (!) poetyckich noblistów.
POLSKA GUROM KURWAAA 🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🦅🦅🦅🦅🦅🦅🦅🦅🦅🦅🦅🦅🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱
jest najlepszy do promptowania i najgorszy do generowania outputu ze względu na dużo odmian, np formy męskie i żeńskie. 🙂
Po tyku latach, po tylu latach, wiemy w końcu po co się tego języka uczyliśmy. XD
Trzeba jednak wspomnieć, że polski język zazwyczaj będzie zżerał więcej tokenów niż angielski, z powodu tego że w polskim więcej słów ma więcej odmian.