2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Подкиньте хороших учебных данных!
Сообщение24.11.2014, 21:42 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
В последнее время читаю спецкурсы по обработке данных, в том числе практику на компьютере. Для заданий нужны файлы с данными. Конечно, можно состряпать какие хочу, датчик случайных чисел всегда доступен. И подогнать можно под любые цели.
Но хочется все-таки иметь пусть небольшие, но реальные данные.

Поиск по интернету почти ничего не дал. То есть данных-то много, но они не "сырые", а уже приведенные к какому-то сокращённому виду. Например, в процентах. Скажем, в каждом столбце указаны проценты от группы проголосовавших, но сколько было респондентов в каждой группе - не указано. И как в этой ситуации применять, хотя бы, простой хи-квадрат? Кроме того, попадаются данные не выборочные (полные) по годам. Но за 3-4-5 лет, так что временного ряда из этого тоже не сварганишь.

В общем, сами мы не местные, от поезда отстали, поможите кто чем может!

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:17 
Заслуженный участник


09/05/12
25179
provincialka в сообщении #935660 писал(а):
Но хочется все-таки иметь пусть небольшие, но реальные данные.
А какого рода данные нужны? В смысле - для заданий какого рода...

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:34 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Разного, но для начала - для статистической обработки. Например: несколько столбцов числовых показателей, и один-два (можно и больше) - категориальных. С названиями, чтобы было понятно, что с ними можно делать, а что нельзя.

Например, данные с которыми я сама работала - данные по содержанию тяжелых металлов (9 наименований), плюс некоторые группировки (например фоновые/загрязненные районы и т.п.) В этом случае данные имеют разный размах (где доли мг, где сотни мг), но все же однотипны и могут быть приведены некоторой стандартизацией к однородным.

Можно использовать и другие варианты. Например, число детей и доход привести в единому стандарту более проблематично. Тем более, что первый показатель дискретен.

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:38 
Аватара пользователя


12/05/12
604
Оттуда
Не знаю, по теме это или нет, но недавно я устроил опрос среди студентов университета, опрос был примерно такой: выберите один из 10 одинаковых вариантов. И вот результаты (на месте под номером $i$ число голосов за вариант $i$): 47 38 94 98 129 129 122 82 54 37. Проголосовало 830 человек. Это не масштабный опрос, но он реальный. Здесь можно проверить гипотезу о нормальном распределении (критерий Пирсона, к примеру).

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:46 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Спасибо! Для небольшой задачки подойдет.

Я, кстати, тоже пыталась собирать данные (в летней школе, среди "продвинутых" учеников). Большого отклика не нашла. Удалось только провести голосование по трудности школьных предметов (их упорядочении), но было довольно много "испорченных бюллетеней".
Еще хотела провести измерение длины шага, но народ не откликнулся. Заманила 4-5 человек, что, конечно, капля в море :?

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:56 
Заслуженный участник


09/05/12
25179
Ну, например, памятуя недавнюю тему... Есть каталог гамма-всплесков (2704 штуки). Для каждого есть данные по жесткости спектра (некая числовая характеристика его наклона) и по продолжительности. Требуется разбить их на классы. Подходит? :wink:

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:04 
Заслуженный участник
Аватара пользователя


04/09/14
5003
ФТИ им. Иоффе СПб
Могу предложить raw data со спектрометров (необработанные данные - сигнал+шум) в любом количестве. Правда, что с этим можно делать мне непонятно, поскольку аналитическая функция для формы спектральной линии "если и существует, то не познаваема, а если и познаваема, то непередаваема ближнему".

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:05 
Аватара пользователя


12/05/12
604
Оттуда
Есть универсальный способ добычи таких "человеческих" данных: можно взять какую-то популярную страницу в социальной сети, и на ней организовать опрос, тема не имеет значения. В зависимости от популярности страницы, если там зарегистрировано несколько тысяч, можно получить выборку в несколько сотен ответов. Чем масштабнее аудитория, тем больше результатов.

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:14 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
На сайте kaggle.com выкладывают задачи, в том числе и статистические (и примеры данных тоже выкладывают). Вот, например, задача ЦЕРНа по статистическому анализу результатов LHC: https://www.kaggle.com/c/higgs-boson. Там слева ссылка есть на файлы с данными, ну можно еще другие статистические задачи посмотреть.

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:25 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
Pphantom в сообщении #935707 писал(а):
Ну, например, памятуя недавнюю тему... Есть каталог гамма-всплесков (2704 штуки). Для каждого есть данные по жесткости спектра (некая числовая характеристика его наклона) и по продолжительности. Требуется разбить их на классы. Подходит? :wink:
То есть каждое наблюдение характеризуется двумя показателями? Маловато, но подходит. Собственно, зато хорошо визуализировать. Кластеризацию мы тоже делаем, разными методами.
А можете переслать? Я в ЛС напишу вам адрес. Заранее спасибо!

-- 24.11.2014, 23:27 --

cool.phenon в сообщении #935711 писал(а):
можно взять какую-то популярную страницу в социальной сети,
Хорошая идея! Можно самой и не организовывать, там и так их полно.
Одно плохо: обычно запрашивается один показатель, так что сравнение двух величин (корреляция, зависимость) провести невозможно...

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:37 
Заслуженный участник


09/05/12
25179
provincialka в сообщении #935720 писал(а):
То есть каждое наблюдение характеризуется двумя показателями?
Есть и другие, просто в данном случае точно известно, что можно что-то конкретное найти.

provincialka в сообщении #935720 писал(а):
А можете переслать? Я в ЛС напишу вам адрес. Заранее спасибо!
Да, конечно.

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:38 
Заслуженный участник
Аватара пользователя


18/01/13
12044
Казань
amon в сообщении #935710 писал(а):
Правда, что с этим можно делать мне непонятно, поскольку аналитическая функция для формы спектральной линии "если и существует, то не познаваема, а если и познаваема, то непередаваема ближнему".
Пожалуй, для учебной задачи это не очень подойдет... Мои студенты и проверку гипотез-то не всегда уверенно делают

(Оффтоп)

Как раз сейчас читаю их опусы про то, что "показатель значим". А еще лучше "значения значимы". Или вот:
Цитата:
Вывод: Если p-value >5%, то параметры не зависят друг от друга, как видно из гистограмм, Нормальное распределение имеет функция KASSIR 3, где значение p-value =14%, показывает большую вероятность на отсутствие отклонений и независимость показателя.
Догадываетесь, что проверялось? Правильно, нормальность распределений. Нарисованы гистограммы и результаты (p-value) Шапиро-Уилка :facepalm:


-- 24.11.2014, 23:47 --

rockclimber в сообщении #935714 писал(а):
Вот, например, задача ЦЕРНа по статистическому анализу результатов LHC:
Спасибо, но в этом мне самой надо сначала разобраться.... Моим горе-экономистам наверное, это не по зубам.

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение25.11.2014, 10:05 


07/08/14
4231
данные о погоде - их много, у них есть не очевидные и одновременно простые закономерности, также есть разные шкалы.

-- 25.11.2014, 10:07 --

http://www.atlas-yakutia.ru/weather/tem ... III_t.html

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение25.11.2014, 11:37 
Заслуженный участник
Аватара пользователя


01/08/06
3049
Уфа
cool.phenon в сообщении #935711 писал(а):
можно взять какую-то популярную страницу в социальной сети, и на ней организовать опрос, тема не имеет значения.
А можно даже опрос не проводить, а посмотреть статистику по пользователям, кто родился 1-го числа, кто 2-го, ..., кто 31-го (точнее, кто указал такой день месяца), ну много ещё каких параметров можно посмотреть.

 Профиль  
                  
 
 Re: Подкиньте хороших учебных данных!
Сообщение25.11.2014, 12:22 
Заслуженный участник
Аватара пользователя


08/11/11
5940
Не знаю, насколько это в тему, но CERN начинает выкладывать в открытый доступ реальные данные экспериментов.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 22 ]  На страницу 1, 2  След.

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group