0. "Более 9000" это реальная оценка объёма или интернет-мем
over 9000, переложенный "на язык родных осин"? ;)
1. Большой объём выборки работоспособность критерия только улучшает. В том смысле, что критерии, как правило, используют асимптотические приближения, например, к нормальному распределению, и чем больше выборка - тем приближение лучше. Снижается также вероятность того, что одни выбросы будут "маскировать" другие. Скажем, если в выборке из 10 элементов 2 выброса, то в 1/4 случаев они будут оба положительны и в

- оба отрицательны, смещая среднее в сторону выбросов и резко затрудняя возможность понять, что это выбросы, в половине случаев. Однако для выборки из 1000 элементов получить при наличии 200 выбросов все 200 одного знака событие с пренебрежимо малой вероятностью, и даже расклад 150 на 50 и более имеет вероятность

2. Увеличение объёма работы при росте выборки существенно при ручной (слабомеханизированной - от арифмометра до микрокалькулятора) обработке, и хотя некоторые алгоритмы имеют сложность выше линейной по

, но даже квадратичная - для данного объёма при расчёте на ЭВМ не страшна, она будет сколько-нибудь тягостна при объёмах в миллионы (а, скажем, ранговые методы при разумной реализации самым сложным этапом имеют упорядочение со сложностью

, а сами сравнения уже упорядоченных массивов линейны по времени).
3. "Верхний предел", замеченный Вами, это, скорее всего - лишь объём выборки, начиная с которого можно не принимать во внимание изменение её объёма (ну, скажем, при малых

распределение Стьюдента от нормального заметно отличается, и для разных

критерий, опирающийся на это распределение, должен давать разные критические значения, но для больших

отклонения Стьюдента от нормального практически незначимы, и изменение

от 100 до бесконечности критических значений не меняет). Впрочем, надо смотреть конкретно. "Дьявол таится в мелочах".