2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Анализ данных
Сообщение10.02.2010, 16:31 
Аватара пользователя
Всем привет!

Что дано:

1) Имеется распределение совместной вероятности (а точнее, частости) двух случайных величин Х и У . Х - пол клиента., У - возраст. На пересечении (Xi;Yi) стоит частость вклада клиентов, удовлетворяющих Xi, Yi. Сумма по всем столбцам дает 1, что и так понятно.

2) Все то же самое, только на пересечении стоит частость кол-ва клиентов.

Что надо:
1) необходимо найти связи между этими двумя показателями. Вопрос - как? Какой анализ применять? Какие программы?
2) Как это сделать, если кол-во таких распределений увеличится (например, добавится еще какой-нибудь показатель)

Заранее спасибо!

 
 
 
 Re: Анализ данных
Сообщение14.02.2010, 15:17 
Не совсем понял, что понимается под связью. Как вариант может быть, что нужно выяснить значимы ли эти факторы или нет. Т.е. предполагаем, что пол не важен, считаем отсюда теоритическое распределение, а потом по методу хи квадрат определяем достоверность гипотезы.

 
 
 
 Re: Анализ данных
Сообщение14.02.2010, 16:28 
Аватара пользователя
Да, объяснил я не очень, но это сложно сделать при таком виде данных ))

Связь нужно найти не столько между случайными величинами, сколько между двумя распределениями (т.е. между кол-ом клиентов и их вкладами).

P.S. Распределений, на самом деле, больше.

 
 
 
 Re: Анализ данных
Сообщение16.02.2010, 21:01 
AchilleS в сообщении #289036 писал(а):
Да, объяснил я не очень, но это сложно сделать при таком виде данных ))

Связь нужно найти не столько между случайными величинами, сколько между двумя распределениями (т.е. между кол-ом клиентов и их вкладами).

P.S. Распределений, на самом деле, больше.

А Вы объясните условия задачи на примере "черного ящика" (ЧЯ):
на входе в ЧЯ есть то и это, а на выходе известно это и то. А хотите узнать от ЧЯ то и то.
Тогда Вам и другим станет понятна постановка и метод решения задачи.

 
 
 
 Re: Анализ данных
Сообщение16.02.2010, 22:52 
Аватара пользователя
Ок) Допустим у нас есть школьная столовая. Дети разбиваются на группы по двум признакам: пол и класс.
Соответственно, первая случайная величина может принимать два значения (м и ж), вторая - 10 (классы с 1-го по 10-й).
Теперь у нас есть 3 продукта, которые едят дети - пирожки, шоколадки и жвачки.

Допустим, мы знаем общее кол-во съеденных продуктов и структуру поедания (т.е. пол и класс ребенка).
Можем составить таблицу, в которой строки - пол ребенка, столбцы - класс. На пересечении стоит кол-во съеденного продукта (пусть для начала пирожки). Т.е. например, мальчики 7 класса съели 10 пирожков, и так по всем ячейкам. Теперь нормируем эти значения на их общую сумму (по таблице), в итоге получая что-то вроде вероятностей совместного распределения двух случайных величин (сумма всех значений в таблице получается равной 1)

Теперь так же с другими двумя продуктами.

И, что самое главное!! Таблиц для каждого(!) продукта 5 штук - для разных последовательных моментов времени. Т.е. есть 5 таблиц для пирожков, 5 для шоколадок и 5 для жвачек.
_______
Вопрос - как связать между собой потребления этих продуктов, выявить какие-либо взаимосвязи, тенденции в потреблении и т.д. Все, что можно выудить из этих данных.

 
 
 
 Re: Анализ данных
Сообщение17.02.2010, 00:15 
Пример:
Клинты идут в банк и несут вклады. Банк заполняет анкету с возрастом, полом и суммой вклада. Банку интересно знать сколько денег могут еще принести клиенты?
На примере ЧЯ поясняю.
На входе в ЧЯ пол и возраст клиентов, на выходе из Я - суммы денег.
Зависимости вроде не просматривается! Но есть аппарат нейронных сетей, который может выявлять скрытые закономерности.
Банк строит нейросеть (НС) и обучает ее на своей статистике, ведь входы и выходы ему известны!
Обученная НС сможет прогнозировать приход денег в зависимости от политики банка по привлечению клиентов (напр. ориентированная на определенный контингент рекламная кампания).

 
 
 
 Re: Анализ данных
Сообщение28.02.2010, 20:33 
Аватара пользователя
Ваш пост понял, но не соображу, как все это сделать для моего случая.

Вы поняли мой пример? Есть еще вопросы по условиям задачи?

 
 
 
 Re: Анализ данных
Сообщение02.03.2010, 03:50 
Аватара пользователя
Если честно, то реально нужна помощь, потому что сроки поджимают...
Так что надеюсь на ваши советы.

 
 
 
 Re: Анализ данных
Сообщение03.03.2010, 09:41 
AchilleS в сообщении #293398 писал(а):
Ваш пост понял, но не соображу, как все это сделать для моего случая.

Вы поняли мой пример? Есть еще вопросы по условиям задачи?

А Вы сами поняли свой пример? Если да, то укажите прямо что у вас задано как входные данные и что вы конкретно хотите вычислить (аппроксимировать, получить, доказать и .т.д. и т.п.)?
Только факты, без всяких "допустим".

 
 
 
 Re: Анализ данных
Сообщение03.03.2010, 12:48 
Аватара пользователя
Ну лучше я объяснить вряд ли смогу) Допустим = то, что дано.
Что надо - найти связи между пирожками, шоколадками, жвачками, полом школьников и классом.
Т.е. как зависит потребление пирожков от пола, от класса, от потребления шоколадок и жвачек.
Аналогично для 2-х других продуктов. Еще бы хорошо выяснить вот что - если нам дают ребенка (например, мальчик из 5-го класса), то сколько в среднем он съест продуктов + динамику потребления (у нас же есть данные для нескольких периодов.

 
 
 
 Re: Анализ данных
Сообщение03.03.2010, 23:45 
AchilleS в сообщении #294141 писал(а):
Ну лучше я объяснить вряд ли смогу) Допустим = то, что дано.
Что надо - найти связи между пирожками, шоколадками, жвачками, полом школьников и классом.
Т.е. как зависит потребление пирожков от пола, от класса, от потребления шоколадок и жвачек.
Аналогично для 2-х других продуктов. Еще бы хорошо выяснить вот что - если нам дают ребенка (например, мальчик из 5-го класса), то сколько в среднем он съест продуктов + динамику потребления (у нас же есть данные для нескольких периодов.

Давайте систематизируем Ваши знания. Постройте таблицу след. вида.
1. В первом столбце будет только указатель пола ученика, напр. М или Д. Т.е. строки первого столбца таблицы будут состоять только из букв М или Д. Этих строк должно быть столько сколько у Вас есть всего учеников, про которых Вам известны данные потребления и возраст.
2. Во втором столбце проставьте соответственный возраст (или год рождения или класс) против каждого ученика.
3. В третьем столбце - потребление жвачки
4. В четвертом - шоколадок
5. В пятом - пирожков
Таблица должна содержать все известные периоды, т.е. должен быть еще столбец с датой (или месяцем в любом формате). Ведь один и тот же ученик имеет разные показатели в зависимости от периода.
Если все это понятно, за работу!
После того как построите таблицу, пошлите мне сообщение в личку.

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group