1. Существующие алгоритмы LLM слабы, так как не могут разобраться с кроссовками (например).
Насколько я понимаю - нет бенчмарков для честного сравнения LLM и человека. Мой айфон обыгрывает меня в шахматы на ~10% от его максимальной силы игры, однако председателем колхоза он пока так и не стал (см. афоризм про лошадь). Насколько я понимаю - LLM это такой естественно-языковой Гугол, только хуже. В Гугле есть advanced search, где я могу настроить поисковые параметры. Как управлять LLM, кроме как, подобно дебилу, ласково уговаривать железяку включить здравый смысл - мне не очень понятно. Но я ни сколько не сомневаюсь, что LLM как Гугол лучше человека. В частности, слегка допиленный напильником, он может решать олимпиаду по матану лучше любого хумана, которого для этих целей дрессируют, по сути, быть Гуглом. Так же как шахматный движок играет в шахматы лучше шахматиста, которого дрессировали быть шахматным движком, а лошадь бежит быстрее бегуна, которого дрессировали быть лошадью.
То есть хороший, годный бенчмарк для железяки должен тестировать навыки? (термин под вопросом), которые нужны в таких профессиях? (термин под вопросом), в которых employeeeeeee не редуцируется до состояния животного (спорт) или механизма (продаван, водятел, погромизд, ...). И вот тут возникают действительно достойные обсуждений в данной теме вопросы: а) существуют ли профессионалы, кроме топ-управленцев, функции которых не может исполнять средняя дрессированная обезьяна (СЭМЭ распространённые мемасики о том, что в школе учили понимать язык Толстого, Достоевского и осмыслять ход истории чел-овечества, а на работе заставляют делать шаурму из кошек (осуждаю!) и не задавать лишних вопросов). И наконец б) как сделать бенчмарк?
P.S. А что за такая humanity на графике? Это человечество как целое?