Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 Как делаются тесты и откуда 100 баллов на ЕГЭ
 i  Ende
Выделено из темы «Последний километр или как сходят с ума))»


Mihr в сообщении #1721729 писал(а):
Viktor_Merkator в сообщении #1721726 писал(а):
заведомо олимпиадник, выбивает на ЕГЭ 75. Выше и ниже флуктуации.

Чепуха.

Я еще в 0-х годах, когда в РФ готовилась система тестирования (под началом Хлебникова), обосновал, что 100-балльная система при тестах тогдашней надежности сводится к 3-4 максимум 5-балльной. С тех пор тесты надежней не стали.
100 баллов ЕГЭ - это статистический выброс. И число 100-балльников - число значений на краю распределения.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
Viktor_Merkator в сообщении #1721967 писал(а):
Я еще в 0-х годах, когда в РФ готовилась система тестирования (под началом Хлебникова), обосновал

Ну, что ж, предоставьте Ваше обоснование.

А я проработал со студентами и школьниками более тридцати лет. И из собственного опыта знаю:
1) 75 баллов на ЕГЭ - это уровень "хорошиста". Причем не обязательно "твёрдого".
2) Случайно набрать на ЕГЭ по математике 100 баллов невозможно. Для такого результата нужно реально потрудиться. Флуктуации здесь ни при чём.

-- 10.04.2026, 10:47 --

Viktor_Merkator в сообщении #1721726 писал(а):
Всегда удивляли 100-балльники, да еще по 3 предметам.

А Вы не удивляйтесь. Просто допустите, что сама жизнь отвергает Ваше обоснование.

 Re: Последний километр или как сходят с ума))
Так система ведь на самом деле вовсе не 100-балльная. Скажем, по математике первичных баллов 32 (или даже 30, по системе пересчета), по физике - 45 и т.д.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
Кстати, с этим тоже невозможно согласиться:
Viktor_Merkator в сообщении #1721967 писал(а):
С тех пор тесты надежней не стали.

Стали. ЕГЭ совершенствуется год от года. По этому поводу я когда-то создал тему: Эволюция ЕГЭ по математике. Можем переместиться в ту тему, если не согласны со мной и если есть желание спорить. Здесь это оффтоп.

 Re: Последний километр или как сходят с ума))
Mihr в сообщении #1721983 писал(а):
Viktor_Merkator в сообщении #1721967 писал(а):
Я еще в 0-х годах, когда в РФ готовилась система тестирования (под началом Хлебникова), обосновал

Ну, что ж, предоставьте Ваше обоснование.

Там нечего обосновывать, это азбучная истина.
https://iimg.su/i/Xa3yvv
С трудом нашел, это даже не научная статья, а популярная для местного издания на фоне массового умоисступления по созданию home-made tests и отмененного ныне в пединститутах курса по тестированию.
Настоящие статьи шли в ЦТ, печатались в их (вернее нашем) журнале по паре штук в год.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
Viktor_Merkator в сообщении #1722012 писал(а):
Там нечего обосновывать, это азбучная истина.

Я, скорее, счёл бы азбучной истиной формулу "критерий истины - практика". Своё мнение я основываю на достаточно длительном опыте. Мне не известно ни одного случая, когда "средний" ученик набрал бы случайно 100 баллов (или около того) на ЕГЭ по математике. Элемент случайности в ЕГЭ, как и в любом другом экзамене, конечно, присутствует. Но он не настолько велик, чтобы объяснять успехи стобалльников "флуктуациями". Это, как минимум, несерьёзно.
И если, как Вы сами говорите, Вас удивляет существование стобалльников сразу по трём предметам, то это - достаточно веская причина пересмотреть Вашу модель. Если в Ваших расчётах нет ошибок, значит, в них заложены неверные начальные данные. Либо используемая Вами модель не адекватна реальности.

 Re: Последний километр или как сходят с ума))
Все сходится. 100-балльников по 3 предметам гораздо меньше чем по 2 и 1 предмету, в полном соотвествии с распределением. Никто не может идти на ЕГЭ в полной уверенности что получит 100 баллов. Но есть 100 (цифра условная) вероятных кандидатов. Получит 1. Определенный баг был заложен в самое систему оценки. Принятая модель не позволяла оценивать набравших 0 и максимальное количество первичных баллов, они удалялись из подсчета, им конвенционально присваивалось 100 баллов. Система общитывала оставшихся, и о баллов ЕГЭ присваивалось тем кто набрал 1 первичный балл, а 100 баллов тем, кто недобрал 1 первичный балл - иначе было нельзя, они ведь были худшими и лучшими из обсчитываемых.
Нас всех, кто работал в группе Хлебникова, к тому времени давно уже даже не сказавши спасибо от работы отстранили, Хлебникову выкатили статью, и на ровном месте был создан ФИПИ, из всех наших наработок принявший худшую модель - Раша 20-х годов.Плохого в этой модели нет, по ней до сих пор (не сознаваясь в этом) оценивается рейтинг шахматистов, Эло. И есть фанаты этой модели, в частности Аванесов. Я встречался вживую с последним живущим на тот момент аспирантом Раша Андричем. Приятный такой себе австралиец. Фото сохранилось втроем с Аванесовым на берегу Азовского вблизи Темрюка. Но неужто после Раша не появилось лучших моделей. Не принимали только оттого что опять была бы непонятная крикливым журналистам и родителям инверсия баллов - за 20 первичных можно было получить скажем 75 ЕГЭ, а за 21 первичный 70. Объяснить эту инверсию неспециалисту невозможно.

По поводу бага что выше у меня была переписка с Болотовым и Кравцовым, в ответ получил отписку, предложение же было принято в кастрированном виде - появилость известное ограничение сверху 94 балла за недобор 1 первичного балла. Это и было мое предложение, только 94 балла были не постоянными а переменными что было объективнее.
Чиновники всегда решают половинчато.
Оно уже давно и забылось в тонкостях, часть материалов по теме была на удаленных теперь сайтах, опять же поднимать бумаги что не все могли сохраниться.

У меня же проблема решалась радикально - всем тестируемым до обсчета приписывались 2 виртуальных задания - одно решенное и 1 нерешенное, что позволяло объективно обсчитывать всех тестируемых без удаления, т.е. переводить первичные баллы в баллы ЕГЭ. Не принято было по понятным причинам - этого бы не поняли далекие от понимания тестирования люди - родители, журналисты. Но неформальное принятие этого предложения путем введения пороговых 94 баллов и позволило разрешить проблему.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
М-да. Видимо, не судьба мне Вас понять :-(
Viktor_Merkator в сообщении #1722027 писал(а):
100-балльников по 3 предметам гораздо меньше чем по 2 и 1 предмету, в полном соотвествии с распределением.

Это ведь и так должно быть ясно, без всяких моделей. То, что модель "предсказывает" этот факт, мало о чём говорит.
Viktor_Merkator в сообщении #1722027 писал(а):
Никто не может идти на ЕГЭ в полной уверенности что получит 100 баллов.

И это совершенно очевидно. Хотя, конечно, не означает, что никто 100 баллов не наберёт.
Viktor_Merkator в сообщении #1722027 писал(а):
Но есть 100 (цифра условная) вероятных кандидатов. Получит 1.

А вот тут уже, честно говоря, непонятно, о чём речь. Один из тех 100 учеников, кто мог бы набрать 100 баллов по одному конкретному предмету? По трём? Хотя бы по одному из трёх (безразлично какому)?
Но самое главное: как определить, кто есть реальный кандидат на получение 100 баллов? Вопрос более чем сложный.
Вообще, к вероятностному подходу оценки шансов на получение той или иной егэшной оценки я бы отнёсся с большой осторожностью. Всё-таки речь не о подбрасывании монет или игральных кубиков. И не о распределении молекул газа по скоростям. Случайности в чистом виде здесь, я полагаю, нет.
Что касается Вашей модели, которую Вы считаете лучше ныне существующей. Если, по Вашим словам, в ней присутствует такая инверсия
Viktor_Merkator в сообщении #1722027 писал(а):
за 20 первичных можно было получить скажем 75 ЕГЭ, а за 21 первичный 70

то вряд ли эту модель можно вообще считать годной. Полностью солидарен с "крикливыми журналистами и родителями".

 Re: Последний километр или как сходят с ума))
Аванесов (прекрасный человек, но не уживался со всеми - Хайтуном, Холодной, Хлебниковым, ФИПИ, в виду имеется публичная полемика) сторонник теории Раша, где инверсии нет. Но он особо указывает, что это совершенно иная культура измерения, требующая тщательнейшего отбора тестовых заданий. Что невозможно, задания всегда будут неравноценными, в той или иной степени. И пробное тестирование на 30 участниках не позволит выявить валидные задания с той же уверенностью что на 10 миллионах. А 10 миллионов это уже не предтестирование, а окончательное с известными последствиями и влиянием на судьбу. А неравноценность заданий и приводит к инверсии. И инверсия впервые появилась не в моей модели, а в модели Бирнбаума, которая 1 год экспериментально тестировалась на миллионах группой Хлебникова. Которая полностью себя оправдала, но решение отказаться от нее было принято под давлением внешней критики именно на основе инверсии. Народу нужна была понятная система, продолжение традиции "учительских тестов", когда вечером учительница составляет тест а утром тестирует учеников для выставления оценок за четверть.

Моя модель всего-лишь следующий за Бирнбаумом шаг, даже непонятно отчего американцы в свое время его не сделали, этот шаг был бы абсолютно логичен. Статья была закинута в журнал ЦТ (не подписной и не платный, развозился не почтой России а фельдегерями по стране, мне на основе инсинуаций было отказано получать его по месту работы в моем университете, договорился в другой учебной организации), и после рецензирования немедленно опубликована. Там полное уравнивание заданий и тестируемых, что логично, и для выставления оценки взвешиваются не только задания но и ученики. Что ликвидирует проблему неадекватных испытуемых (это не оскорбление а термин), но принято считать что их не должно быть больше 1% (иногда 5%), что не факт. Неадекватны все, только с разной степенью неадекватности. Отчего бы системе это не учитывать.

Только чем больше переменных, тем выше требования к размеру выборки. Я писал о знакомстве с аспирантом раша Андричем, он вполне серьезно публиковал работы где логиты подсчитывались для выборки в несколько испытуемых. Там все сходится. Биарнбаум требует для сходимости итераций уже сотен испытуемых, а обобщенная модель тысяч или десятков тысяч. Т.е. масштаба ЕГЭ с мощными вычислительными возможностями.

А для учительских тестов остается классическая теория тестов - вечером составление теста утром тестирование на классе или 3 параллелях. Где из 15 заданий 5 вполне себе могут работать против теста в целом, т.е. отличники на них получают 0 а троечники 1. А хорошисты разбредаются фифти-фифти. Но who cares.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
Viktor_Merkator в сообщении #1722040 писал(а):
задания всегда будут неравноценными, в той или иной степени

Причина возможных инверсий именно в этом? То есть, кто-то сделал два более простых задания, с которыми справились практически все, а кто-то их пропустил или ошибся по невнимательности, но зато сделал более сложное, с которым справились относительно немногие. И вот этот второй в рамках Вашей модели должен получить больше тестовых баллов. Речь об этом?
Viktor_Merkator в сообщении #1722040 писал(а):
Где из 15 заданий 5 вполне себе могут работать против теста в целом, т.е. отличники на них получают 0 а троечники 1. А хорошисты разбредаются фифти-фифти.

Можно конкретный пример такого задания? Пока мне такая возможность кажется чисто умозрительной. Не имеющей отношения к реальности.

 Re: Последний километр или как сходят с ума))
Какая тут умозрительность.Это азбука составления тестов в классической теории (хотя потом отобранные задания попадают в модель Раша). Баллы задания проеряются на корреляцию с критерием (лучше всего с результатами работы специалиста через 5 лет после диплома), но кто будет столько ждать - критерием здесь и сейчас служит сумма баллов испытуемых. Принято отвергать все задания с корреляцией по Пирсону ниже 0,3. Задания с корреляцией 0 бесполезны, между 0-0,3 малопродуктивны - напрасная трата времени испытумых, а с отрицательной работают против теста - как я и писал, понимающие дают 0 а непонимающие 1.

Т.ч. что значит привести примеры - по хорошим тестам такого нет, а по еще сырым - так там таких заданий 50%, на то и предтестирование чтобы их выбросить, ну разве что сказывается опыт и знания составителя. Оттого если хотите сделать тест на 30 заданий, выставляйте на предтестирование 50 или 60.

Скажем вопрос в тесте Земля плоская или круглая. Назначьте 1 за ответ что Земля плоская и вот вам пример задания с отрицательной корреляцией. Разумеется, при условии, что большинство ответит что Земля круглая. Если большинство ответит что Земля плоская, задание окажется формально вполне себе пригодным. Но это уже патологический случай, разбираться надо с учениками а не заданием.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
Viktor_Merkator в сообщении #1722043 писал(а):
Т.ч. что значит привести примеры - по хорошим тестам такого нет, а по еще сырым - так там таких заданий 50

Именно то и значит, что было сказано. Я просил пример, иллюстрирующий конкретно вот это утверждение:
Viktor_Merkator в сообщении #1722040 писал(а):
вечером составление теста утром тестирование на классе или 3 параллелях. Где из 15 заданий 5 вполне себе могут работать против теста в целом, т.е. отличники на них получают 0 а троечники 1. А хорошисты разбредаются фифти-фифти.

Viktor_Merkator в сообщении #1722043 писал(а):
Скажем вопрос в тесте Земля плоская или круглая.

Вот только давайте без подобных "анекдотов". Реальный пример, пожалуйста. Вы ведь утверждаете, что таких примеров много. Значит, выбрать пару-тройку примеров или хотя бы один не составит труда?

 Re: Последний километр или как сходят с ума))
Я, как один из немногих специалистов в области тестирования знаний, пишу как сделать хороший тест, а Вы, исходя скорей из предвзятости и ведомственного интереса, поскольку это Ваша работа, прошу прощения если не прав, требуете правил как сделать плохой тест, и даже настаиваете на примерах. Нет ничего проще, таково большинство т.н. учительских тестов. Это термин, home-made-tests

Еще раз - заданий-кандидатов на включение в тематический тест составляется в 3 раза больше, чем потребно по ТЗ, и худшие отсеиваются по низкой корреляции с критерием. Те, что остаются и удовлетворяют правилу корреляция по Пирсону выше 0,3, включаются в тест. Те, которые отсеяны - плохие для данного теста. Не исключено, что они же хорошие для теста, оценивающего другое качество. Если Вы никогда при составлении тестов не отсеивали негодные предтестированием, и не оценивали численно по стандартным формулам начала прошлого века их коэффициент надежности, то все Ваши тесты оказывались низкого качества. Это только один из методов, есть и более современные, я писал что это был предмет моего обращения к Болотову и Кравцову. Мы работаем, решение принимают чиновники, у них кругозор шире. Мне интересно дать метод составления хорошего теста, чиновника заботит чтобы к системе тестирования не было придирок от неспециалистов - родителей и журналистов.

Меня интересует истинная валдиность теста, его пригодность для оценки некоего качества, а чиновника очевидная валидность.

Ниже определение очевидной валидности.

Очевидная валидность (face validity) — это представление о тесте, его сфере применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Очевидная валидность не гарантирует истинную валидность теста.Не всегда совпадает с научной концепцией валидности и не является её компонентом.

Я прекращаю общение с Вами, это мое право, и функционал сайта это предусматривает.

 Re: Последний километр или как сходят с ума))
Аватара пользователя
Viktor_Merkator в сообщении #1722305 писал(а):
Я, как один из немногих специалистов в области тестирования знаний, пишу как сделать хороший тест

Конкретных рекомендаций по тому, как сделать хороший тест, я не увидел. Если кто-то увидел, пожалуйста, ткните пальцем в соответствующее место.
Viktor_Merkator в сообщении #1722305 писал(а):
Вы, исходя скорей из предвзятости и ведомственного интереса

У меня в принципе не может быть никаких ведомственных интересов, поскольку я не отношусь ни к одному из ведомств. Я самозанятый.
Viktor_Merkator в сообщении #1722305 писал(а):
требуете правил как сделать плохой тест

В этой теме я ни разу ничего не потребовал. Ни от Вас, ни от кого-либо ещё. Другое дело, что человек (в норме) отвечает за свои слова. Вы сделали удивительное с моей точки зрения заявление, но подтвердить его примерами отказываетесь, голословно утверждая, что таких примеров много. Насколько корректен такой стиль ведения диалогов - решайте сами.
Viktor_Merkator в сообщении #1722305 писал(а):
Я прекращаю общение с Вами

Ради бога. Счастливо.

 Re: Как делаются тесты и откуда 100 баллов на ЕГЭ
Выше упоминалось соответствие между 100-балльной шкалой ЕГЭ, рейтингом Эло шахматистов и спортивными разрядами РФ, поскольку основа оценок общая - логистическая модель Раша. Появляется возможность оценить разницу между соседними спортивными разрядами, эквивалентную 14 баллам ЭГЭ.

https://www.researchgate.net/publicatio ... o_ekzamena

 [ Сообщений: 16 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group