2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Подкиньте хороших учебных данных!
Сообщение24.11.2014, 21:42 
Аватара пользователя
В последнее время читаю спецкурсы по обработке данных, в том числе практику на компьютере. Для заданий нужны файлы с данными. Конечно, можно состряпать какие хочу, датчик случайных чисел всегда доступен. И подогнать можно под любые цели.
Но хочется все-таки иметь пусть небольшие, но реальные данные.

Поиск по интернету почти ничего не дал. То есть данных-то много, но они не "сырые", а уже приведенные к какому-то сокращённому виду. Например, в процентах. Скажем, в каждом столбце указаны проценты от группы проголосовавших, но сколько было респондентов в каждой группе - не указано. И как в этой ситуации применять, хотя бы, простой хи-квадрат? Кроме того, попадаются данные не выборочные (полные) по годам. Но за 3-4-5 лет, так что временного ряда из этого тоже не сварганишь.

В общем, сами мы не местные, от поезда отстали, поможите кто чем может!

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:17 
provincialka в сообщении #935660 писал(а):
Но хочется все-таки иметь пусть небольшие, но реальные данные.
А какого рода данные нужны? В смысле - для заданий какого рода...

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:34 
Аватара пользователя
Разного, но для начала - для статистической обработки. Например: несколько столбцов числовых показателей, и один-два (можно и больше) - категориальных. С названиями, чтобы было понятно, что с ними можно делать, а что нельзя.

Например, данные с которыми я сама работала - данные по содержанию тяжелых металлов (9 наименований), плюс некоторые группировки (например фоновые/загрязненные районы и т.п.) В этом случае данные имеют разный размах (где доли мг, где сотни мг), но все же однотипны и могут быть приведены некоторой стандартизацией к однородным.

Можно использовать и другие варианты. Например, число детей и доход привести в единому стандарту более проблематично. Тем более, что первый показатель дискретен.

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:38 
Аватара пользователя
Не знаю, по теме это или нет, но недавно я устроил опрос среди студентов университета, опрос был примерно такой: выберите один из 10 одинаковых вариантов. И вот результаты (на месте под номером $i$ число голосов за вариант $i$): 47 38 94 98 129 129 122 82 54 37. Проголосовало 830 человек. Это не масштабный опрос, но он реальный. Здесь можно проверить гипотезу о нормальном распределении (критерий Пирсона, к примеру).

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:46 
Аватара пользователя
Спасибо! Для небольшой задачки подойдет.

Я, кстати, тоже пыталась собирать данные (в летней школе, среди "продвинутых" учеников). Большого отклика не нашла. Удалось только провести голосование по трудности школьных предметов (их упорядочении), но было довольно много "испорченных бюллетеней".
Еще хотела провести измерение длины шага, но народ не откликнулся. Заманила 4-5 человек, что, конечно, капля в море :?

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 22:56 
Ну, например, памятуя недавнюю тему... Есть каталог гамма-всплесков (2704 штуки). Для каждого есть данные по жесткости спектра (некая числовая характеристика его наклона) и по продолжительности. Требуется разбить их на классы. Подходит? :wink:

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:04 
Аватара пользователя
Могу предложить raw data со спектрометров (необработанные данные - сигнал+шум) в любом количестве. Правда, что с этим можно делать мне непонятно, поскольку аналитическая функция для формы спектральной линии "если и существует, то не познаваема, а если и познаваема, то непередаваема ближнему".

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:05 
Аватара пользователя
Есть универсальный способ добычи таких "человеческих" данных: можно взять какую-то популярную страницу в социальной сети, и на ней организовать опрос, тема не имеет значения. В зависимости от популярности страницы, если там зарегистрировано несколько тысяч, можно получить выборку в несколько сотен ответов. Чем масштабнее аудитория, тем больше результатов.

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:14 
На сайте kaggle.com выкладывают задачи, в том числе и статистические (и примеры данных тоже выкладывают). Вот, например, задача ЦЕРНа по статистическому анализу результатов LHC: https://www.kaggle.com/c/higgs-boson. Там слева ссылка есть на файлы с данными, ну можно еще другие статистические задачи посмотреть.

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:25 
Аватара пользователя
Pphantom в сообщении #935707 писал(а):
Ну, например, памятуя недавнюю тему... Есть каталог гамма-всплесков (2704 штуки). Для каждого есть данные по жесткости спектра (некая числовая характеристика его наклона) и по продолжительности. Требуется разбить их на классы. Подходит? :wink:
То есть каждое наблюдение характеризуется двумя показателями? Маловато, но подходит. Собственно, зато хорошо визуализировать. Кластеризацию мы тоже делаем, разными методами.
А можете переслать? Я в ЛС напишу вам адрес. Заранее спасибо!

-- 24.11.2014, 23:27 --

cool.phenon в сообщении #935711 писал(а):
можно взять какую-то популярную страницу в социальной сети,
Хорошая идея! Можно самой и не организовывать, там и так их полно.
Одно плохо: обычно запрашивается один показатель, так что сравнение двух величин (корреляция, зависимость) провести невозможно...

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:37 
provincialka в сообщении #935720 писал(а):
То есть каждое наблюдение характеризуется двумя показателями?
Есть и другие, просто в данном случае точно известно, что можно что-то конкретное найти.

provincialka в сообщении #935720 писал(а):
А можете переслать? Я в ЛС напишу вам адрес. Заранее спасибо!
Да, конечно.

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение24.11.2014, 23:38 
Аватара пользователя
amon в сообщении #935710 писал(а):
Правда, что с этим можно делать мне непонятно, поскольку аналитическая функция для формы спектральной линии "если и существует, то не познаваема, а если и познаваема, то непередаваема ближнему".
Пожалуй, для учебной задачи это не очень подойдет... Мои студенты и проверку гипотез-то не всегда уверенно делают

(Оффтоп)

Как раз сейчас читаю их опусы про то, что "показатель значим". А еще лучше "значения значимы". Или вот:
Цитата:
Вывод: Если p-value >5%, то параметры не зависят друг от друга, как видно из гистограмм, Нормальное распределение имеет функция KASSIR 3, где значение p-value =14%, показывает большую вероятность на отсутствие отклонений и независимость показателя.
Догадываетесь, что проверялось? Правильно, нормальность распределений. Нарисованы гистограммы и результаты (p-value) Шапиро-Уилка :facepalm:


-- 24.11.2014, 23:47 --

rockclimber в сообщении #935714 писал(а):
Вот, например, задача ЦЕРНа по статистическому анализу результатов LHC:
Спасибо, но в этом мне самой надо сначала разобраться.... Моим горе-экономистам наверное, это не по зубам.

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение25.11.2014, 10:05 
данные о погоде - их много, у них есть не очевидные и одновременно простые закономерности, также есть разные шкалы.

-- 25.11.2014, 10:07 --

http://www.atlas-yakutia.ru/weather/tem ... III_t.html

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение25.11.2014, 11:37 
Аватара пользователя
cool.phenon в сообщении #935711 писал(а):
можно взять какую-то популярную страницу в социальной сети, и на ней организовать опрос, тема не имеет значения.
А можно даже опрос не проводить, а посмотреть статистику по пользователям, кто родился 1-го числа, кто 2-го, ..., кто 31-го (точнее, кто указал такой день месяца), ну много ещё каких параметров можно посмотреть.

 
 
 
 Re: Подкиньте хороших учебных данных!
Сообщение25.11.2014, 12:22 
Аватара пользователя
Не знаю, насколько это в тему, но CERN начинает выкладывать в открытый доступ реальные данные экспериментов.

 
 
 [ Сообщений: 22 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group