Scientists from the University of Maryland and Microsoft conducted a test of large language models (LLM), in which they checked how bots deal with individual natural languages. They examined 26 languages. The OpenAI o3-mini-high, Google Gemini 1.5 Flash, Qwen2.5 (7B and 72B), Llama 3.1 (8B), Llama 3.3 (70B) and DeepSeek-R1 models were involved in the tests. They wrote queries (so-called prompts), which were not short and perfunctory, but extremely extensive and contextual (up to over 100,000 tokens). Based on the results of this experiment (query understanding, response quality), they published the OneRuler benchmark. Effect? Undoubtedly a big surprise. The Polish language took first place. Our native language has overtaken English – the language that is naturally the leading one in the context of AI training, taking only sixth place in this ranking.

    Effectiveness of individual languages ​​in prompting:

    1. Polish 88%
    2. French 87%
    3. Italian 86%
    4. Spanish 85%
    5. Russian 84%
    6. English 83.9%
    7. Ukrainian 83.5%
    8. Portuguese 82%
    9. German 81%
    10. Dutch 80%
    11. Norwegian 79%
    12. Swedish 78%
    13. Danish 77%
    14. Hungarian 76%
    15. Finnish 75%
    16. Czech 73%
    17. japanese 72%
    18. Vietnamese 71%
    19. Persian 70%
    20. Serbian 69%
    21. Korean 66%
    22. hindi 65%
    23. Chinese 62.1%
    24. Tamil 61%
    25. swahili 55%
    26. English 45%

    https://cyfrowa.rp.pl/technologie/art43231871-boty-pokochaly-jezyk-polski-wygral-w-amerykanskich-badaniach

    Posted by kurufasulyepilavv

    Share.

    10 Comments

    1. czyli jak już wypuszczą llm kerfusia do domu to będzie mi szeptał najlepsze sprośności? kurde może to ai nie jest takie złe jak się jest Polakiem

    2. W sumie ma to sens, z całą naszą deklinacją itp- słowa są bardziej konkretne wskazując dokładniej o co chodzi. W wielu językach mimo że jest odmiana pewnego typu, to całość zależy bardziej od kontekstu- a kontekstu te narzędzia nie ogarniają.

    3. Zupełnie nieironicznie uważam że polski to nad-język. Istnieje powód dla którego w epoce zdominowanej przez prozę daliśmy światu dwoje (!) poetyckich noblistów.

    4. POLSKA GUROM KURWAAA 🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🦅🦅🦅🦅🦅🦅🦅🦅🦅🦅🦅🦅🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱🇵🇱

    5. PolskiPolakZPolski on

      jest najlepszy do promptowania i najgorszy do generowania outputu ze względu na dużo odmian, np formy męskie i żeńskie. 🙂

    6. niemacotuwpisac on

      Po tyku latach, po tylu latach, wiemy w końcu po co się tego języka uczyliśmy. XD

    7. Trzeba jednak wspomnieć, że polski język zazwyczaj będzie zżerał więcej tokenów niż angielski, z powodu tego że w polskim więcej słów ma więcej odmian.