Вы не обижайтесь, возможно вы действительно верите, что эти игры со случайностью важны
Я могу ошибаться (что наглядно продемонстрировано на предыдущей странице). Шансов, что классические теоремы и классические курсы ошибаются - крайне немного. Но иногда применяемый Вами стиль в любом случае не способствует ничьему приближению к истине.
скажем так, вы ищите специальные приемы, чтобы показать как в эксперимент проникает случайность
Тут подход следующий.
У нас есть датасет. Это просто набор признаков и меток. Строго говоря, нельзя говорить о том, как он сгенерирован (ну кроме того, что по распределению, в котором вероятность такого датасета ненулевая). Поэтому из двух датасетов, отличающихся друг от друга метками на тесте (с одинаковыми признаками, и одинаковыми метками на трейне), ни один в общем-то не хуже другого. И про датасет в общем виде нельзя сказать ничего нетривиального.
Дальше есть два варианта, как всё же получить хоть какие-то утверждения. Можно либо наложить какие-то ограничения на сам датасет, либо на метод его генерации. Есть довольно стандартный подход к генерации - сказать, что вектора признаков сгенерированы независимо одинаково распределенными по какому-то распределению, а метки, в свою очередь - по какому-то распределению, обусловленному признаками. Это можно как-то исследовать теоретически (например, probably approximately correct learning), и очень удобно использовать для модельных экспериментов.
Для практики это не очень полезный подход, потому что у нас, как правило, нет толком описания, какое распределение генерирует данные (если есть, то возникает задача статистики, а не машинного обучения).
И я не очень понимаю, Вы делаете
-заявление о "практических" датасетах (

доступных на huggingface)
-заявление о всех датасетах, обладающих каким-то свойством
-заявление о том, что датасеты, сгенерированные каким-то способом, скорее всего, чему-то удовлетворяют
-заявление о чем-то еще?
В нашем случае это означает ровно следующие, если класс 0, то первый выход = 1, второй =0, если класс 1, то первый выход = 0, второй =1 ... т.е. какой выход дает 1 такой и класс
А, в смысле кодирование таргета, а не признаков?