Евгений Машеров Да, вы правы, тогда придется по порядку. Я просто немного надеялся, что есть учебник "серебряная пуля", о существовании которого я не слышал.
Курс матстатистики у меня был три года назад (вместе с курсом по теорверу и случайным процессам). Когда-то я всё знал в объеме мехматской семестровой программы, но благополучно забыл за "ненадобностью". Запомнил только, что было как обычно много теории, и за этим "лесом" не удалось, к сожалению, разглядеть саму науку, посмотреть на нее как бы с высоты "птичьего полёта", чтобы более-менее ориентироваться.
Я преследую две немного разные цели: 1. Хочу хорошо разобраться со статистическими тестами в криптографии (diehard, NIST). Почему тесты именно такие, какие они есть сейчас? Как понять по двум тестам, проверяют ли они одно и то же? Как понять, можно ли один тест заменить другим, более "нетребовательным" к памяти и быстродействию компьютера? Почему обращают внимание только на p-value и ничего не говорят об ошибках второго рода (которые, на мой взгляд, гораздо хуже -- не уловить скрытую структуру опаснее?). Что гарантирует тот или иной тест?
2. Немного интересуюсь машинным обучением и хочу ориентироваться в методиках обработки данных. Условно: уметь быстро решать и понимать методологию решения простых задач, наподобие: есть два лекарства, есть выборка с указанием, помогло ли лекарство или нет, выяснить, является ли одно лекарство более эффективным (есть ли значимые отличия). Либо: дана выборка, требуется понять, взята ли она из равномерного распределения или же нет. Или: на выходе из избирательного участка опросили 500 людей, из них 55% проголосовали за кандидата А, значит ли это, что он с большой вероятностью победит? У меня много маленьких частных вопросов и нет видения ситуации в целом.
Что касается моей подготовки, то это скорее tabula rasa. Иногда всплывают отдельные куски, вроде ЦПТ или ЗБЧ (из теорвера), доверительные интервалы и точечные оценки неизвестных параметров, но этим думаю вообще можно пренебречь. Скажем, я не скажу сходу, в чем отличие между "почти наверное" и "по вероятности" с чисто практической точки зрения и как можно легко выявить это различие.
Почему я просил прикладную статистику? К сожалению, в процессе обучения часто бывало, что спотыкаешься на какой-нибудь сложной математической теореме и сидишь в ней долго копаешься, либо "вроде бы разобрался", но нет интуитивного понимания -- каждый кусочек и переход понятен, но что оно означает в целом -- неясно. Либо ещё более скверная ситуация -- кажется, что всё понял, но когда доходит дело до решения задач -- понимаешь, что ничего не можешь сделать.
Поэтому (на мой взгляд) с какой-то областью надо знакомиться в несколько итераций: сначала это должны быть не перегруженные математикой курсы, возможно даже с размахиваниями руками, которые смотрят несколько "с высоты птичьего полёта" на науку, не вдаваясь в детали (чтобы за деревьями не скрылся лес). Это должно быть максимально наглядно, с большим количеством графиков, диаграмм, с большим количеством нетрудных задач (не наподобие докажите то-то и то-то, а скорее посчитайте то-то и то-то, подумайте над этим, нарисуйте на компьютере, смоделируйте сами). И уже потом, когда есть хотя бы какая-то сложившаяся картинка в голове - следующая "математическая" итерация: формализация рукомаханий в строгие теоремы.
|