Задача - временной ряд

-
месячные цены акций, нужно построить ряд
годовой лог прибыли

и посчитать эмпирическую CDF. (не переносите в раздел экономики пожалуйста, это чисто задача из статистики).
а)
Простое решение: сделать движущееся окно размером 12, и провести его по месячной прибыли
с шагом 12, так чтобы окна не пересекались. Проблема - 11/12 данных упущено.
Вопрос - есть ли способ лучше? Как использовать данные по максимуму, не выкидывая огромную иx часть?б)
Пересекающиеся окна, двигать окно с шагом 1, все данные будут использованы, но, мы получим другую проблему, корреляцию, overlap bias, которая сильно искажает данные, особенно хвост распределения CDF (видно резкий обвал черных точек на конце графика
https://i.imgur.com/APxPkWi.jpeg искажения также есть и в других местах, но они не так заметны).
в)
Максимум энтропии сделать 12 рядов годовой прибыли с не пересекающимися окнами, каждое сдвинутое относительно другого на 1. И выбрать имеющий максимальную энтропию. И, вопрос - как именно считать энтропию?
г)
Усреднить CDF сделать 12 рядов годовой прибыли с не пересекающимися окнами, построить 12 CDF и затем их усреднить, можно попробовать усреднить их как лог среднее CDF = exp(mean(log(cdf_i)).
Структура случайного процесса: мы знаем что процесс месячных цен -
стационарный но не нормальный. Если рассмотреть его как процесс месячных лог прибылей, это будет случайный сэмпл
log r ~ SkewStudentT(μ, σ, ν, λ) все параметры константы. Уточнение, в реальности процесс не стационарный и выглядит как
log r ~ SkewStudentT(μ(t), σ(t), ν(t), λ(t)), но, данные можно сгруппирровать и в пределах каждой группы считать процесс стационарным.
Почему важно использовать все данные: например у нас есть данные месячные цены 250 акций за 30 лет. И за эти 30 лет было всего 2 кризиса с сильным падением и оба они пришлись на скажем 6й месяц. Если мы посчитаем годовую прибыль используя начало как 1 месяц и затем двигая окно с шагом 12 - мы пропустим эти ключевые данные о кризисе, и получим совершенно неверную CDF словно кризисов никогда не бывает.
Примечание - хвост распределения не менее важен чем центральная часть (а может и более важен), выбранный метод не должен перекашивать параметры хвоста в угоду центральной части. Т.е. оценки качества типа КолмогороваСмирнова которые измеряют восновном центральную часть использовать нельзя, лучше использоваться что то типа АндерсонДарлинг.
Пример, симуляция на PythonНа картинке красные точки это вариант а) не пересекающиеся окна (часть данных упущена), черные точки вариант б) все данные, но неверно.
https://i.imgur.com/APxPkWi.jpeg (как вставлять картинки? пишет "Не удалось определить размеры изображения.")
Код симуляции на Python и Julia
https://gist.github.com/al6x/a769abfe18 ... 40f49f5d6e