Около 30% от всех данных. Но опять же скажу, что это пропуски вызванные естественными причинами
это очень много, просто отбором признаков и отсевом наблюдений проблему не решить
Предложу один из вариантов, на мой взгляд весьма перспективный.
Выборка 10000х150, 30% пропусков (предположительно разбросаны случайным образом).
На первом этапе требуется найти такие сочетания признаков, в которых количество самих признаков будет максимальным, а количество пропусков минимальным. Конкретизирую: для 1 признака количество пропусков 30%, для 2-х оно может быть от 30% в лучшем случае, до 60% в худшем, для 3-х 30% в лучшем и 90% в худшем, и т.д. На сколько увеличится общее количество пропусков при добавлении каждого нового признака зависит как от его выбора, так и от природы данных. Но в среднем, оно так или иначе будет увеличиваться.
На втором этапе, на каждой найденной системе признаков требуется построить самостоятельный классификатор. При этом, все наблюдения с пропусками следует удалить. Чем больше признаков будет в выбранном сочетании, тем больше наблюдений придётся удалить, и тем менее достоверными будут результаты. С другой стороны, чем больше признаков будет в выбранном сочетании, тем более высокого качества классификации удастся достичь на обучающей выборке.
Более строго, для выбора оптимального сочетания признаков, нужен критерий, характеризующий качество классификации на неизвестных данных. Можно, например, использовать кроссвалидацию.
В результате, получится множество классификаторов, для разных сочетаний признаков, известными значениями точности и достоверности классификации. Кроме этого, нужно будет оценить статистическую взаимосвязь, между результатами классификации разных классификаторов (можно использовать анализ соответствий).
При классификации неизвестного наблюдения, из имеющегося множества классификаторов, выбираются классификаторы построенные на сочетаниях признаков, присутствующих в классифицируемом наблюдении. Выполняется классификация с помощью каждого из них и полученные результаты объединяются с учётом их статистической взаимосвязи.
Это есть решение проблемы пропусков полностью исключающее необходимость заполнения неизвестных значений. Для построения отдельных классификаторов можно использовать любой метод, в том числе и деревья и random forest, но я бы начал с логистической регрессии, так как эту модель проще исследовать. По своей сути - это тоже комитет алгоритмов, но решает он именно проблему пропусков, а не другие вторичные задачи.
Хотелось бы подчеркнуть, random forest который Вам настоятельно рекомендуют, не понимая всех нюансов, сам по себе, не решает проблему пропусков. Основная цель, преследуемая в этом алгоритме - повышение обобщающей способности. Это нужно, и это важно, но это не тот вопрос который Вы задали, и его следует рассматривать отдельно. Перед использованием random forest, как Вы уже наверное убедились, пропуски так или иначе необходимо чем то заполнить (либо алгоритм сделает это сам, так как ему вздумается).
Собственно, все содержательные ответы на Ваш вопрос, поступившие до этого момента, касались исключительно способа такого заполнения. Кто то предлагал использовать произвольные константы, кто то средние значения, особо одарённые - "напихать" случайных чисел в random forest (надо отдать должное - креативно). Но лучший результат, как я уже отмечал, может быть достигнут при использовании заполнения прогнозами (imputation), но как Вы справедливо отметили, с практическим использованием такого классификатора могут возникнуть сложности, так как непонятно, что подавать на входы при классификации неизвестных наблюдений. В комитете алгоритмов, построенных на разных сочетаниях признаков такой проблемы нет.