2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Вопросы о log-трансформации данных и не только..
Сообщение20.06.2014, 05:06 
Аватара пользователя


09/05/13
12
Граждане,

что-то я совсем запутался с обработкой полученных данных, не могу въехать.
Вот было у меня 9 экспериментальных групп (по 4 элемента в каждой).
Для каждого элемента было измерено значение одного показателя.
Для того, чтобы это дело аккуратно выровнять, сделал log-трансформацию.

Изображение

Изображение

Вопросы:
1. "... чтобы это дело аккуратно выровнять..." - никуда не годится.
Log-трансформация применяется в тех случаях, когда значения распределены log-нормально. Так ведь? Т.е. сначала я должен установить, какое это распределение. Каким образом? Построить гистограмму, определить визуально, а потом проверить методом Колмогорова? Или наконец-то появились более вдумчивые подходы?
2. Если мне нужно посчитать описательную статистику (среднюю, дисперсию, эксцессы), а затем посчитать ANOVA, то мне теперь орудовать с этими трансформированными данными?
3. Зачем делают обратную log-трансформацию? В чём её принципиальный смысл?
4. Уместно ли посчитать среднюю геометрическую log-трансформированных значений? Есть какое-то чёткое правило, которое говорило бы нам, какую среднюю (арифеметическую, геометрическую, гармоническую) стоит считать в том или ином случае?

Заранее спасибо!

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение20.06.2014, 08:03 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
0. Здесь как нельзя более применим принцип Наполеона - "Сначала ввязаться в серьёзный бой, потом посмотрим". Надо пробовать эту модель (как и другие). Трудоёмкость растёт, но в настоящее время это второстепенный недостаток, по сравнению с эпохой ручных расчётов.
1. Логарифмическое преобразование решает по крайней мере три задачи.
а. Переход от мультипликативной модели $y=ax^b e^{\varepsilon}$ к аддитивной $y=a+bx+\varepsilon$, вторая легко оцениваемая и хорошо разработана статистически, первая может следовать из физической модели или удовлетворять некоторым очевидным требованиям (скажем, результат должен обращаться в нуль при равенстве нуля одного из регрессоров)
б. Выравнивание дисперсии. Если для различных иксов постоянен не абсолютный разброс y, а относительный, так что с ростом y увеличивается и разброс, порождённый случайными причинами, логарифмирование может помочь.
в. Нормализация распределения. При этом речь идёт не столько о распределении самих y, сколько возмущающих факторов. Соответственно, критерием для логарифмирования является не близость к логнормальному распределения y, а близость к нормальному остатков после логарифмирования (сравнивая с остатками для нелогарифмированной модели).
2. Зависит от того, для чего считаем. Если смысл в том, чтобы проверить значимость полученной модели, то, разумеется, считать надо преобразованные для этой модели данные.
3. Чтобы вернуться к исходным единицам измерения и сформулировать окончательные выводы в терминах, которыми пользуются в данной прикладной области.
4.

(Оффтоп)

Что такое половое излишество? Это когда паркетный пол линолеумом покрывают!

Логарифм среднего геометрического - среднее арифметическое логарифмов данных. Если данные уже логарифмированы - зачем вычислять логарифм от логарифма (хотя бы "неявно вычислять" в формуле среднего геометрического)?

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение21.06.2014, 00:05 
Аватара пользователя


09/05/13
12
Евгений, спасибо за вдумчивый ответ! :)
Переменная облачность в моей голове проясняется.. )))

Цитата:
Если для различных иксов постоянен не абсолютный разброс y, а относительный, так что с ростом y увеличивается и разброс, порождённый случайными причинами, логарифмирование может помочь.
Допустим, у нас есть несколько таких наборов данных и нам нужно статистически грамотно 1) описать каждый из них, 2) сравнить их друг с другом.
Для описания можно рассчитать геометрическое среднее перичных данных, его ошибку и геометрическое стандартное отклонение, а затем уже оценить этот набор данных.
Как для описания, так и для сравнения можно log-трансформировать сразу все данные, а затем уже общаться с ними, как с нормально распределёнными (и рассчитать среднее арифметическое и его ошибку, стандартное отклонение, провести t-анализ Стьюдента, ANOVA). Затем можно осуществить обратное log-трансформирование необходимых статистических показателей (скажем, средние и ошибки) и привести их в качестве иллюстрации (и это уже будут не условные единицы, а реальные кг, мл, шт. и т.п.).
Эти рассуждения верны? Если нет, то где ошибка, укажите, пожалуйста.

Столкнулся с тем, что некоторые значения $x$ столь малы, что $\ln(x)<0$. Т.е. получаются отрицательные числа. Я так понимаю, что это не особо хорошо. Порылся в инете, нашёл, что в таких случаях можно прибавить ко всем log-трансформированным данным некое $a$, такое, чтобы $\ln(x)+a>0$. Как выбрать это $a$? Совершенно произвольно, только чтобы удовлетворяло условиям? Напр., если наименьшее значение в log-трансформированном ряду данных равняется $-5{,}5$, то я могу просто добавить ко всем значениям $6$ и, избавившись от отрицательных значений, дальше бодро делать расчёты? А куда потом эту $6$ девать? Надо будет, видимо, её вычитать откуда-то (напр., из средних)? Как всё это корректно сделать?

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение21.06.2014, 10:02 
Заслуженный участник
Аватара пользователя


18/05/06
13438
с Территории
Чем Вам не нравятся отрицательные числа?

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение22.06.2014, 20:56 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
А потом Вы будете, скажем, регрессию считать. Или просто дисперсию. Вычитая среднее. Которое после прибавки a увеличится, правильно, ровно на a, и, значит, после вычитания среднего будет ровно то же, что и если бы не прибавляли a.

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение23.06.2014, 07:44 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
Возможно, Вы имеете в виду рекомендацию прибавлять небольшую константу до логарифмирования?
$y=\log(x+a)$
Это эмпирический приём, используемый, когда по смыслу задачи логарифмировать надо, но некоторые из наблюдений, подлежащих преобразованию, равны нулю. Причём предполагается, что истинное значение ненулевое, но измерения проводились с конечной точностью, и ноль получился в результате округления до шага h шкалы измерения. Тогда естественно выбрать $a=\frac h 2$ или $a=\frac h 3$, точные рекомендации в подобного рода эмпирических приёмах затруднительны, приходится довольствоваться принципом "Хоть и безобразно, но однообразно".
Такой способ - альтернатива полному отбрасыванию таковых наблюдений (которых жалко, да и план эксперимента может оказаться несбалансированным) или замене на некоторую константу только логарифмов этих нулевых наблюдений (то есть смещение значений только малых наблюдений): прибавляя константу ко всем логарифмируемым величинам, смещение вносится равномерно во все.
После же логарифмирования прибавлять что-то вещь безвредная, но совершенно бесполезная.

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение27.06.2014, 12:33 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
В общем, в начальной Вашей задаче логарифмирование полезно по крайней мере по пункту 1б (видно даже на глаз, но можно и применить критерии равенства дисперсий для остатков; некоторые статпакеты предлагают также графики квадратов остатков от иксов и другие графические методы).
Чтобы утверждать, что полезно по 1а - надо что-то знать о модели, которую исследуете, по 1в - посмотреть распределения остатков для разных моделей, какое ближе к нормальному.

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение10.08.2014, 21:52 
Аватара пользователя


09/05/13
12
При рассчёте среднего геометрического встал вопрос о подсчёте ошибки этого стат. показателя.
Ввиду того, что ошибка среднего есть его стандартное отклонение отнесённое к корню из объёма выборки (правильно же?), то для начала необходимо подсчитать геометрическое стандартное отклонение. Формулу для него нашёл вот тут.

В итоге для ряда данных ($x_1, x_2, ... x_n$) получилось вот так:

$ \bar{x}_g = \sqrt[n]{\prod\limits_{i=1}^n x_i} = \exp \left( \frac {1} {n} \cdot \sum\limits_{i=1}^n \ln x_i \right) \qquad (1) $

$ \sigma_g = \exp \left( \sqrt { \frac {1} {n} \cdot \sum\limits_{i=1}^n \left( \ln \frac {x_i} { \bar{x}_g}  \right) ^2 } \right) \qquad (2) $

$ \boxed{ m_g = \frac {\sigma_g} {\sqrt n}  } \qquad (3) $

где $\bar{x}_g$ - среднее геометрическое,
$\sigma_g$ - геометрическое стандартное отклонение,
$m_g$ - стандартная ошибка среднего геометрического,
$n$ - объём выборки.


Но потом нашёл статью Norris,1940 и чего-то совсем запутался. Я правильно понял, что для подсчёта ошибки геометрического среднего он предлагает отношение стандартного отклонения к корню из объёма выборки умножать на собственно геометрическое среднее? Зачем?
Помогите разобраться, пожалуйста..

Изображение

 Профиль  
                  
 
 Posted automatically
Сообщение10.08.2014, 21:59 


20/03/14
12041
 i  Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
Тема перемещена в Карантин по следующим причинам:

Первую картинку в предыдущем посте убираем и оформляем формулы.

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

 Профиль  
                  
 
 Posted automatically
Сообщение11.08.2014, 21:46 


20/03/14
12041
 i  Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение11.08.2014, 22:11 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
Очень смущает выражение для геометрического стандартного отклонения. Из него следует, что если все усредняемые величины одинаковы - оно равно единице.
А что до домножения - то тут просто, есть относительная ошибка, есть абсолютная.

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение12.08.2014, 03:41 
Аватара пользователя


09/05/13
12
Евгений, спасибо!
Да, согласен. Получается так.
Но поскольку на деле я никогда не встречаю ряда, включающего в себя лишь одинаковые величины, то может быть всё не так страшно?

Вообще, там, откуда я взял это выражение, выводят его следуюшим образом (привожу практически дословно, только заменил обозначения на те, которыми обычно пользуюсь):

Если геометрическое среднее - это

$ \bar{x}_g = \sqrt[n]{x_1 x_2 ... x_n} \qquad (4) $

то при логарифмировании обоих частей получим

$ \ln \bar{x}_g = \frac {1} {n} \cdot \ln (x_1 x_2 ... x_n) \qquad (5) $

Логарифм произведения равен сумме логарифмов (при условии, что $ x_i $ - положительные числа при всех $ i $), тогда

$ \ln \bar{x}_g = \frac {1} {n} \cdot (\ln x_1 + \ln x_2 + ... + \ln x_n) \qquad (6) $

Теперь видно, что $ \ln \bar{x}_g $ является средним ряда $\{ \ln x_1, \ln x_2, ..., \ln x_n \} $, поэтому арифметическое стандартное отклонение того же ряда должно быть следующим:

$ \ln \sigma_g = \sqrt { \frac {1} {n} \cdot \sum\limits_{i=1}^n \left( \ln x_i - \ln \bar{x}_g \right) ^2 } \qquad (7) $

Упростив, получаем:

$ \sigma_g = \exp \left( \sqrt { \frac {1} {n} \cdot \sum\limits_{i=1}^n \left( \ln \frac {x_i} { \bar{x}_g}  \right) ^2 } \right) \qquad (8) $

где $\bar{x}_g$ - среднее геометрическое,
$\sigma_g$ - геометрическое стандартное отклонение,
$n$ - объём выборки.

Меня настораживает выражение $(7)$. Мы на самом деле вот так с лёгкостью можем оперировать натуральными логарифмыми значений, подставляя их в арифметические выражения, и потом проэкспонировав, утверждать, что мы получили соответствующюю геометрическую величину?

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение12.08.2014, 09:58 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
Думаю, что нельзя. Думаю, что тут явная ошибка. Выявляемая и упомянутым парадоксом - когда для серии наблюдений, заведомо не содержащих изменчивости, мера изменчивости не ноль.
$ \ln \sigma_g \neq  \sigma_{ \ln  g}$
Вообще, тут надо оговорить распределение. Для геометрического среднего наиболее адекватно выглядит логнормальное с параметрами $\mu$ и $\sigma$, матожиданием и стандартным отклонением для логарифмов. Как для арифметического среднего - нормальное. Тогда геометрическое среднее будет также логнормальным, с тем же параметром $\mu$, что у исходных наблюдений, и параметром $\sigma_{ga}=\sigma/\sqrt n$
Его дисперсия, следовательно, будет $D^2=(e^{\sigma^2/n}-1)e^{2\mu+\sigma^2/n}$
Учитывая, что для логнормального распределения матожидание $M=e^{\mu+\sigma^2/2}$, получаем, что относительная величина среднеквадратичного отклонения геометрического среднего будет $\sqrt{e^{\sigma^2/n}-1}$, а для перехода к абсолютным величинам надо умножить на среднее геометрическое.

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение16.08.2014, 21:48 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва

(Оффтоп)

Встречаются как-то два психоаналитика. Один другому: Я "Ягуар" купил, тот ему - А я яхту. - А я виллу построил. - А я замок. Тут первый замечает второму: - Да что мы дурака валяем, мы же профессионалы, всё понимаем, давай вынем и померяемся!

Это я к тому, что сделал небольшой численный эксперимент и померял.
В опыте генерируется 25 чисел, равномерно распределённых между 1 и 2 (специально взял не логнормальное - поскольку у меня оценка как раз в предположении логнормальности). Считается их геометрическое среднее. Для каждого опыта оценивается стандартная ошибка среднего по формуле из Вики и предложенной мной. Опыт повторяется 325 раз. Затем считается СКО полученных средних геометрических, принимаемое за "ошибку среднего геометрического", а также медианы сравниваемых оценок ошибки.
Вычисленная СКО - 0.07, моя оценка - 0.07, оценка "по Вики" - 1.04.
Из чего я делаю вывод, что моя оценка по крайней мере не выдаёт бредовых результатов. Хотя вопрос применимости для не-логнормальных распределений sub judice
Оценка же из AMS 1940 года при малых сигма и/или больших n (то есть если показатель экспоненты настолько мал, что можно воспользоваться приближением $e^x\approx 1+x$) оказывается хорошим приближением к моей.

 Профиль  
                  
 
 Re: Вопросы о log-трансформации данных и не только..
Сообщение17.08.2014, 07:02 
Заслуженный участник
Аватара пользователя


11/03/08
9919
Москва
В общем, похоже на то, что в Вики чьи-то домыслы (кстати, там висит замечание - "не приведены ссылки на источники"). Причём домыслы, критики не выдерживающие.
Что до домножения на саму величину геометрического среднего, то очевидно, что через логарифмирование мы можем получить только безразмерную величину. То есть даже если всё верно - это может быть лишь относительная ошибка. Для перехода к абсолютной ошибке относительную ошибку умножают на значение измеренной величины, приобретая и соответствующую размерность.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 15 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group