Последний километр или как сходят с ума))

Viktor_Merkator · 10.04.2026, 18:45

Все сходится. 100-балльников по 3 предметам гораздо меньше чем по 2 и 1 предмету, в полном соотвествии с распределением. Никто не может идти на ЕГЭ в полной уверенности что получит 100 баллов. Но есть 100 (цифра условная) вероятных кандидатов. Получит 1. Определенный баг был заложен в самое систему оценки. Принятая модель не позволяла оценивать набравших 0 и максимальное количество первичных баллов, они удалялись из подсчета, им конвенционально присваивалось 100 баллов. Система общитывала оставшихся, и о баллов ЕГЭ присваивалось тем кто набрал 1 первичный балл, а 100 баллов тем, кто недобрал 1 первичный балл - иначе было нельзя, они ведь были худшими и лучшими из обсчитываемых.
Нас всех, кто работал в группе Хлебникова, к тому времени давно уже даже не сказавши спасибо от работы отстранили, Хлебникову выкатили статью, и на ровном месте был создан ФИПИ, из всех наших наработок принявший худшую модель - Раша 20-х годов.Плохого в этой модели нет, по ней до сих пор (не сознаваясь в этом) оценивается рейтинг шахматистов, Эло. И есть фанаты этой модели, в частности Аванесов. Я встречался вживую с последним живущим на тот момент аспирантом Раша Андричем. Приятный такой себе австралиец. Фото сохранилось втроем с Аванесовым на берегу Азовского вблизи Темрюка. Но неужто после Раша не появилось лучших моделей. Не принимали только оттого что опять была бы непонятная крикливым журналистам и родителям инверсия баллов - за 20 первичных можно было получить скажем 75 ЕГЭ, а за 21 первичный 70. Объяснить эту инверсию неспециалисту невозможно.

По поводу бага что выше у меня была переписка с Болотовым и Кравцовым, в ответ получил отписку, предложение же было принято в кастрированном виде - появилость известное ограничение сверху 94 балла за недобор 1 первичного балла. Это и было мое предложение, только 94 балла были не постоянными а переменными что было объективнее.
Чиновники всегда решают половинчато.
Оно уже давно и забылось в тонкостях, часть материалов по теме была на удаленных теперь сайтах, опять же поднимать бумаги что не все могли сохраниться.

У меня же проблема решалась радикально - всем тестируемым до обсчета приписывались 2 виртуальных задания - одно решенное и 1 нерешенное, что позволяло объективно обсчитывать всех тестируемых без удаления, т.е. переводить первичные баллы в баллы ЕГЭ. Не принято было по понятным причинам - этого бы не поняли далекие от понимания тестирования люди - родители, журналисты. Но неформальное принятие этого предложения путем введения пороговых 94 баллов и позволило разрешить проблему.

Mihr · 10.04.2026, 19:50

М-да. Видимо, не судьба мне Вас понять :-(

Viktor_Merkator в сообщении #1722027 писал(а):

100-балльников по 3 предметам гораздо меньше чем по 2 и 1 предмету, в полном соотвествии с распределением.

Это ведь и так должно быть ясно, без всяких моделей. То, что модель "предсказывает" этот факт, мало о чём говорит.

Viktor_Merkator в сообщении #1722027 писал(а):

Никто не может идти на ЕГЭ в полной уверенности что получит 100 баллов.

И это совершенно очевидно. Хотя, конечно, не означает, что никто 100 баллов не наберёт.

Viktor_Merkator в сообщении #1722027 писал(а):

Но есть 100 (цифра условная) вероятных кандидатов. Получит 1.

А вот тут уже, честно говоря, непонятно, о чём речь. Один из тех 100 учеников, кто мог бы набрать 100 баллов по одному конкретному предмету? По трём? Хотя бы по одному из трёх (безразлично какому)?
Но самое главное: как определить, кто есть реальный кандидат на получение 100 баллов? Вопрос более чем сложный.
Вообще, к вероятностному подходу оценки шансов на получение той или иной егэшной оценки я бы отнёсся с большой осторожностью. Всё-таки речь не о подбрасывании монет или игральных кубиков. И не о распределении молекул газа по скоростям. Случайности в чистом виде здесь, я полагаю, нет.
Что касается Вашей модели, которую Вы считаете лучше ныне существующей. Если, по Вашим словам, в ней присутствует такая инверсия

Viktor_Merkator в сообщении #1722027 писал(а):

за 20 первичных можно было получить скажем 75 ЕГЭ, а за 21 первичный 70

то вряд ли эту модель можно вообще считать годной. Полностью солидарен с "крикливыми журналистами и родителями".

Viktor_Merkator · 11.04.2026, 05:03

Аванесов (прекрасный человек, но не уживался со всеми - Хайтуном, Холодной, Хлебниковым, ФИПИ, в виду имеется публичная полемика) сторонник теории Раша, где инверсии нет. Но он особо указывает, что это совершенно иная культура измерения, требующая тщательнейшего отбора тестовых заданий. Что невозможно, задания всегда будут неравноценными, в той или иной степени. И пробное тестирование на 30 участниках не позволит выявить валидные задания с той же уверенностью что на 10 миллионах. А 10 миллионов это уже не предтестирование, а окончательное с известными последствиями и влиянием на судьбу. А неравноценность заданий и приводит к инверсии. И инверсия впервые появилась не в моей модели, а в модели Бирнбаума, которая 1 год экспериментально тестировалась на миллионах группой Хлебникова. Которая полностью себя оправдала, но решение отказаться от нее было принято под давлением внешней критики именно на основе инверсии. Народу нужна была понятная система, продолжение традиции "учительских тестов", когда вечером учительница составляет тест а утром тестирует учеников для выставления оценок за четверть.

Моя модель всего-лишь следующий за Бирнбаумом шаг, даже непонятно отчего американцы в свое время его не сделали, этот шаг был бы абсолютно логичен. Статья была закинута в журнал ЦТ (не подписной и не платный, развозился не почтой России а фельдегерями по стране, мне на основе инсинуаций было отказано получать его по месту работы в моем университете, договорился в другой учебной организации), и после рецензирования немедленно опубликована. Там полное уравнивание заданий и тестируемых, что логично, и для выставления оценки взвешиваются не только задания но и ученики. Что ликвидирует проблему неадекватных испытуемых (это не оскорбление а термин), но принято считать что их не должно быть больше 1% (иногда 5%), что не факт. Неадекватны все, только с разной степенью неадекватности. Отчего бы системе это не учитывать.

Только чем больше переменных, тем выше требования к размеру выборки. Я писал о знакомстве с аспирантом раша Андричем, он вполне серьезно публиковал работы где логиты подсчитывались для выборки в несколько испытуемых. Там все сходится. Биарнбаум требует для сходимости итераций уже сотен испытуемых, а обобщенная модель тысяч или десятков тысяч. Т.е. масштаба ЕГЭ с мощными вычислительными возможностями.

А для учительских тестов остается классическая теория тестов - вечером составление теста утром тестирование на классе или 3 параллелях. Где из 15 заданий 5 вполне себе могут работать против теста в целом, т.е. отличники на них получают 0 а троечники 1. А хорошисты разбредаются фифти-фифти. Но who cares.

Mihr · 11.04.2026, 07:14

Viktor_Merkator в сообщении #1722040 писал(а):

задания всегда будут неравноценными, в той или иной степени

Причина возможных инверсий именно в этом? То есть, кто-то сделал два более простых задания, с которыми справились практически все, а кто-то их пропустил или ошибся по невнимательности, но зато сделал более сложное, с которым справились относительно немногие. И вот этот второй в рамках Вашей модели должен получить больше тестовых баллов. Речь об этом?

Viktor_Merkator в сообщении #1722040 писал(а):

Где из 15 заданий 5 вполне себе могут работать против теста в целом, т.е. отличники на них получают 0 а троечники 1. А хорошисты разбредаются фифти-фифти.

Можно конкретный пример такого задания? Пока мне такая возможность кажется чисто умозрительной. Не имеющей отношения к реальности.

Viktor_Merkator · 11.04.2026, 07:51

Какая тут умозрительность.Это азбука составления тестов в классической теории (хотя потом отобранные задания попадают в модель Раша). Баллы задания проеряются на корреляцию с критерием (лучше всего с результатами работы специалиста через 5 лет после диплома), но кто будет столько ждать - критерием здесь и сейчас служит сумма баллов испытуемых. Принято отвергать все задания с корреляцией по Пирсону ниже 0,3. Задания с корреляцией 0 бесполезны, между 0-0,3 малопродуктивны - напрасная трата времени испытумых, а с отрицательной работают против теста - как я и писал, понимающие дают 0 а непонимающие 1.

Т.ч. что значит привести примеры - по хорошим тестам такого нет, а по еще сырым - так там таких заданий 50%, на то и предтестирование чтобы их выбросить, ну разве что сказывается опыт и знания составителя. Оттого если хотите сделать тест на 30 заданий, выставляйте на предтестирование 50 или 60.

Скажем вопрос в тесте Земля плоская или круглая. Назначьте 1 за ответ что Земля плоская и вот вам пример задания с отрицательной корреляцией. Разумеется, при условии, что большинство ответит что Земля круглая. Если большинство ответит что Земля плоская, задание окажется формально вполне себе пригодным. Но это уже патологический случай, разбираться надо с учениками а не заданием.

Mihr · 11.04.2026, 08:51

Viktor_Merkator в сообщении #1722043 писал(а):

Т.ч. что значит привести примеры - по хорошим тестам такого нет, а по еще сырым - так там таких заданий 50

Именно то и значит, что было сказано. Я просил пример, иллюстрирующий конкретно вот это утверждение:

Viktor_Merkator в сообщении #1722040 писал(а):

вечером составление теста утром тестирование на классе или 3 параллелях. Где из 15 заданий 5 вполне себе могут работать против теста в целом, т.е. отличники на них получают 0 а троечники 1. А хорошисты разбредаются фифти-фифти.

Viktor_Merkator в сообщении #1722043 писал(а):

Скажем вопрос в тесте Земля плоская или круглая.

Вот только давайте без подобных "анекдотов". Реальный пример, пожалуйста. Вы ведь утверждаете, что таких примеров много. Значит, выбрать пару-тройку примеров или хотя бы один не составит труда?

Научный форум dxdy

Последний километр или как сходят с ума))