Задача сформулирована отсюда:
https://www.kaggle.com/c/expedia-personalized-sortСуть задачи – в предсказании, какой отель выберет посетитель. На сайте, задав параметры поиска, пользователь получает список из рекомендуемых отелей. Примерно от 5-ти до 60-ти, из чего и выбирает.
Эти данные собраны за некоторый период. Обучающая выборка где-то 10 млн. записей (в ней указано, что выбрал пользователь) – где-то 0.5 млн. поисков, тестовая – примерно 6 млн. (для них нужно упорядочить в каждом поиске пользователя отели так, чтобы в действительности выбранный отель оказался как можно выше в списке)
Одна их очевидных характеристик отеля – это его «рейтинг», с помощью которого отели просто сортируются для пользователя. Описанная выше задача – это построение рейтинга для одного отеля. Понятно, что это не единственная характеристика в задаче, но весьма значимая.
Конечно, с точки зрения ТВ, имеют место нарушения условий применимости: возвратов нет, вероятность выборки зависит от шара (отеля), и еще чего-нибудь. Можно предположить, что количество
известно, но это будет явно неправильное предположение, т.к. в результат поиска попадают находящиеся в некоторой близости отели (нам неизвестной).
Остается сделать ход конем, заявив, что: пренебрежем эффектами, связанные с не возвратами, различностью вероятностей выборки отеля, и т.п. и найденную в такой упрощенной задаче вероятность объявим рейтингом отеля. А потом на проверочной выборке сверим, как это работает. Вот так мы пользуемся ТВ
Поскрипев мозгами, получил похожую формулу правдоподобия (она записана несколько иначе, но тождественна приведенной выше). Отелей, если я правильно помню, где-то 135 тыс. Т.е. задачу нужно решить численно примерно столько же раз, за исключением особых случаев (дополнительно к приведенному выше случаю есть еще «не выбран ни разу», «выбран во всех случаях»)… Это, конечно, не такая большая проблема, однако ж требует времени.
Но, вероятно, этого делать не стоит… А разумно за основу взять формулу, которую вывел
–mS— для одинаковых
… Если
различны, то использовать в формуле вместо
среднее арифметическое
, среднее гармоническое, среднее логарифмическое и или что? Может ли теория, с учетом хода конем, что-нибудь подсказать?
P.S. Если кто-то желает поучаствовать в подобных задачах, есть возможность создания команд на сайте каггле. Основная польза - погружение в мир реальных задач. На сайте есть призы, но на них особо рассчитывать не стоит. Тем более, как на вид заработка. Для выхода на призы нужно тратить много времени, обладать квалификацией, иметь хорошее оборудование, соответствующее программное обеспечение, и т.д.