2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Верификация результатов прошедших исследований
Сообщение05.02.2025, 23:56 
Заслуженный участник
Аватара пользователя


11/12/05
10227
В данной теме планируется рассмотреть модельный пример социологического(их) исследования(й) и методы верификации следствий(гипотез) из этого(их) исследования(й) .

Насколько я понимаю, типичное исследование, описанное в примере, выглядит так:

Есть некая популяция $A$ (генеральная совокупность) с некоторым распределением $W_A$ интересующей нас величины $x$ (в модельном примере это отношение к лгбт). Мы не можем опросить всё население, чтобы получить $W_A$. Поэтому, чтобы получить с хорошей достоверностью картину этого распределения, мы делаем достаточно широкую репрезентативную выборку/панель $s$, изучаем распределение на ней $W_s$ и переносим этот результат на $A$, то есть, считаем, что $W_A = W_s$. Это и есть результат исследования, как это следует из модельного примера
См. картинку:
Вложение:
f.jpg
f.jpg [ 29.67 Кб | Просмотров: 0 ]


Далее, пусть через время $T$ нам понадобилось по каким-то соображениям подтвердить, что (во время исследования а)) распределение величины $х$ по генеральной совокупности $A$ было действительно равно именно $W_s$,а не чему-то другому. Так как со временем взгляды людей могут меняться, то повторять без модификации то же самое исследование в текущее время бессмысленно -- оно покажет совсем другое. Если я правильно понимаю описание процедуры данное ув. Ghost_of_past , то из всей популяции $A$ выделяется подмножество особей $C$, про которых известно, что их отношение к лгбт не изменилось статистически значимо. Из $C$ делается выборка/панель $q$ по параметрам эквивалентная той панели, которая использовалась для исследования а). То есть величины всех переменных (таких как пол/возраст/образование/доход и тд) равны или близки. Предполагается, что $C$ достаточно большое, чтобы делать разумное количество таких выборок.

(описание процедуры данное ув. Ghost_of_past)

Ghost_of_past в сообщении #1673065 писал(а):
Если опрос проводился по панели (а лонгитюдные опросы - самые качественные), то у нас есть возможность определить значения других независимых переменных в панели на момент проведения опроса по свойствам выборки - например, в панели опрашивалось 1200 человек с определенным половым/гендерным составом, возрастным составом, образовательным составом, географическим составом и т.д. В квазиэкспериментальном воспроизведении мы возьмем выборку с большинством сходных характеристик по этим переменным, репрезентативным стране в целом, но опросим какую-то группу, где нет статистического значимого изменения - например, представителей какого-то социального класса или жителей каких-то конкретных типов населенных пунктов/штатов и т.д., сохраняя репрезентацию распределения значений других переменных изначальной выборке.


Далее проделывается такая же работа над $q$, находится $W_q$ и сравнивается с $W_s$.
См. картинку:
Вложение:
e.jpg
e.jpg [ 25.09 Кб | Просмотров: 0 ]


Пока на этом останавливаюсь, чтобы убедиться, что я я двигаюсь в верном направлении.
Прошу Ghost_of_past поправить меня если это необходимо.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 00:54 


31/01/24
1097
Brussels, Belgium
Во-первых, я не вижу, как учитывается квотная структура. Сколько в выборке из панели $s$ будет квотных срезов $n$, чтобы образовалась квотная структура $s_n$?

Просто это важно, т.к. от этого зависит и объем набираемой выборки $s$, и сложность проведения квазиэкспериментального воспроизведения, так как нужно понимать, сколько контрольных переменных тут будет. При этом на квотную ячейку по пересекающимся квотам должно приходиться ну хотя бы больше $50$ респондентов, а иначе не хватит объема для статистически значимых выводов.

Приведу пример: есть $3$ среза ($n=3$) - доходы, образование, география. Пусть в доходах будет $3$ группы, в образовании $5$ групп и в географии $5$ макрорегионов страны. Тогда потребуется $75$ ($3\times5\times5$) квотных ячеек и чтобы каждая была не меньше $50$ человек - значит нужно не менее $3750$ респондентов. В реальности нужен еще помимо основной выборки на всякий случай буст, пусть $10\%$, т.е. уже $4125$ респондентов. При стандартном онлайн-опросе по панели достижимость аудитории будет $41-60\%$ и завершаемость опроса будет где-то около $15\%$. Соответственно нам нужно, чтобы мы разослали опрос в панели минимум $55 000$ людей.

Во-вторых, все-таки набираем подвыборку $c$ по выборке $s$ эквивалентную по квотной структуре подмножеству $C$ по генеральной совокупности $A$ - для этого и нужна панель, так как нам тяжело определить $C$ в $A$, но в панели легко найти, кому разослать ссылку на опрос, чтобы квотная структура и значение контрольных переменных было таким же, как у $c$ в выборке $s$.

В остальном всё верно.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:13 
Заслуженный участник
Аватара пользователя


11/12/05
10227
Ghost_of_past в сообщении #1673398 писал(а):
Во-первых, я не вижу, как учитывается квотная структура. Сколько в выборке из панели $s$ будет квотных срезов $n$, чтобы образовалась квотная структура $s_n$?
Этот вопрос мне понятен. Давайте предположим, что социологи сочли исследование важным и поэтому в выборку $с$ включили достаточное количество срезов.

Ghost_of_past в сообщении #1673398 писал(а):
Во-вторых, все-таки набираем подвыборку $c$ по выборке $s$ эквивалентную по квотной структуре подмножеству $C$ по генеральной совокупности $A$
У меня нет выборки $c$ а есть выборкa $q$. Если речь о ней, то квотная структура панели для квазиэсперимента подбирается эквивалентной квотной структуре $s$.
Под этим я имею в виду, что значения переменных в квотных ячейках панели $q$ равны или близки соотв. значениям которые были у панели $s$

Правильно?

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:19 


31/01/24
1097
Brussels, Belgium
Dan B-Yallay в сообщении #1673401 писал(а):
Давайте предположим, что социологи сочли исследование важным и поэтому в выборку $с$ включили достаточное количество срезов.


Тогда все стандартно:
- пол/гендер;
- возраст;
- доход;
- образование;
- география (но не штаты, а лучше размер населенного пункта по интервальным значениям).

Dan B-Yallay в сообщении #1673401 писал(а):
есть выборка $q$


Ок.

Dan B-Yallay в сообщении #1673401 писал(а):
Правильно?


Да, всё так.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:33 
Заслуженный участник


24/08/12
1140
Dan B-Yallay
Имхо такую проверку можно считать подтверждением достоверности выводов первого исследования только насчет той доли $C$ которая входила в $W_s$.
Например, если в панели первого исследования были вопросы на которых респонденты из $C$ отвечали коректно (в смысле таким образом что это репрезентативно для вывода $W_A = W_s$ для фракции $C$), а респонденты из группы $A \textbackslash C$ почему-то врали (тем самым искажая результаты делая их недостоверными для $W_A$ для фракции $A \textbackslash C$) - то на втором исследовании это никак не скажется, поскольку в нем фракция $A \textbackslash C$ никак не участвует.
Наверно поэтому такая верификация и "квази".

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:38 
Заслуженный участник
Аватара пользователя


11/12/05
10227
Ghost_of_past в сообщении #1673402 писал(а):
Да, всё так.

Хорошо, тогда давайте глянем на более детальную картину:
Вложение:
d.jpg
d.jpg [ 39.75 Кб | Просмотров: 0 ]

Слева у нас панель $s$ является репрезентативной для всей генеральной совокупности $A$. А справа в квазиэксперименте мы делаем эквивалентную по квотным ячейкам панель $q$, но уже из специально выбранного подмножества $C \subset A$, причём критерий для выбора в это множество $C$ некоторым образом связан с интересующей нас величиной $x$: у них он не должен был меняться. Это настораживает, потому, что для подсчёта некоторой величины, мы набираем людей по какому-то признаку этой самой величины.
Очевидно, что распределение величины $x$ в панели $q$ будет показывать расределение $W_C$.

Поэтому вопрос: откуда нам известно, что во время исследования а) распределения $W_A$ и $W_C$ были равны?

-- Ср фев 05, 2025 16:40:12 --

manul91 в сообщении #1673404 писал(а):
Имхо такую проверку можно считать подтверждением достоверности выводов первого исследования только насчет той доли $C$ которая входила в $W_s$.
У меня похожее ощущение и я пытаюсь его строго сформулировать.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:52 
Заслуженный участник


24/08/12
1140
Dan B-Yallay в сообщении #1673405 писал(а):
У меня похожее ощущение и я пытаюсь его строго сформулировать.
Ну по-моему это совсем ясно.
Если в первом исследовании есть искажения/недостоверности которые коррелируют как раз со срезом "отношение к лгбт меняется статистически значимо" (что у вас обозначено как $A \textbackslash C$), то на втором ("верифицирующем") исследовании это никак не скажется - просто потому, что в нем $A \textbackslash C$ вообще никак не участвует.
Т.е. таких искажений (или неискажений) второе исследование не может ни подтвердить ни отвергнуть - оно попросту никак с ними не связано.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:57 


31/01/24
1097
Brussels, Belgium
Dan B-Yallay в сообщении #1673405 писал(а):
мы делаем эквивалентную по квотным ячейкам панель $q$


Не совсем так - панель у нас ровно одна. Панель - это одна система с респондентами и значениями их переменных, и она постоянно поддерживается и обновляется. А по этой одной панели мы уже набираем выборки $s$ и $q$.

Dan B-Yallay в сообщении #1673405 писал(а):
откуда нам известно, что во время исследования а) распределения $W_A$ и $W_C$ были равны?


А нам это и не известно - мы эту информацию должны получить. Для этого из $W_s$ мы должны получить $W_C$ по той части $C$, что входила в $s$ (для этого нам и нужно, чтобы в ячейках по пересекающимся срезам был нужный объем выборки для дальнейшего сопоставления), а потом мы $W_C$ сопоставляем с $W_A$ ($=W_s$) через взвешивание наблюдений.

-- 06.02.2025, 02:03 --

manul91 в сообщении #1673407 писал(а):
Если в первом исследовании есть искажения/недостоверности


Их не должно быть, т.к. для этого мы и используем репрезентативную населению в целом панель с большим числом респондентов. То есть результаты будут достоверными как минимум в том смысле, что они репрезентативны $A$.

Другое дело, что сами респонденты при этом могут давать социально одобряемые ответы, но это уже устанавливается и устраняется не средствами статистики, а через социологический инструментарий опроса - вводится скрининг-раздел; используются корректные формулировки; вводятся повторные проверочные вопросы с другой формулировкой того же самого вопроса; производится чистка панели от респондентов, по контрольным переменным в панели которых мы знаем информацию, а в опросе они указывают другую (например, по панели при регистрации респондента был указан возраст 34 года, а в опросе потом человек указывает возрастной интервал 55-64 года) и т.д.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:05 
Заслуженный участник
Аватара пользователя


11/12/05
10227
manul91 в сообщении #1673407 писал(а):
Т.е. таких искажений (или неискажений) второе исследование не может ни подтвердить ни отвергнуть - оно попросту никак с ними не связано

Вот именно. Я не статистик, поэтому пришлось прибегнуть к картинкам, чтобы понять.

-- Ср фев 05, 2025 17:26:22 --

Ghost_of_past в сообщении #1673408 писал(а):
Не совсем так - панель у нас ровно одна. Панель - это одна система с респондентами и значениями их переменных, и она постоянно поддерживается и обновляется. А по этой одной панели мы уже набираем выборки $s$ и $q$.

Спасибо, я подразумевал это.

Ghost_of_past в сообщении #1673408 писал(а):
А нам это и не известно - мы эту информацию должны получить.

Да. Мы должны были получить эту информацию, чтобы подтвердить результаты исследования а) про все население. А получили распределение, которое никак к результатам а) не относится.



Я предлагаю пока искажения и недостоверности не трогать. Вопрос остётся даже если никаких искажений нет.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:30 


31/01/24
1097
Brussels, Belgium
Dan B-Yallay в сообщении #1673409 писал(а):
Мы должны были получить эту информацию, чтобы подтвердить результаты исследования а) про все население.


Не торопите события. Мы сперва должны понять, как соотносятся $W_C$ и $W_A=W_s$ между собой и понять, нужно ли нам будет делать взвешивание.

Dan B-Yallay в сообщении #1673409 писал(а):
А получили распределение, которое никак к результатам а) не относится.


Соотносится или не соотносится - это мы проверим через спецификационные тесты.

Вы понимаете, какой из 3 типов моделей панельных данных нам здесь нужен? Мы здесь используем в качестве модели регрессию пула, модель с фиксированными эффектами или модель со случайными эффектами? Однофакторную или двухфакторную модель?

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:35 
Заслуженный участник


24/08/12
1140
Ghost_of_past в сообщении #1673408 писал(а):
Их не должно быть, т.к. для этого мы и используем репрезентативную населению в целом панель с большим числом респондентов. То есть результаты будут достоверными как минимум в том смысле, что они репрезентативны $A$.
Другое дело, что сами респонденты при этом могут давать социально одобряемые ответы, но это уже устанавливается и устраняется не средствами статистики, а через социологический инструментарий опроса - вводится скрининг-раздел; используются корректные формулировки; вводятся повторные проверочные вопросы с другой формулировкой того же самого вопроса; производится чистка панели от респондентов, по контрольным переменным в панели которых мы знаем информацию, а в опросе они указывают другую (например, по панели при регистрации респондента был указан возраст 34 года, а в опросе потом человек указывает возрастной интервал 55-64 года) и т.д.
Так все это относится к повышением репрезентативности/достоверности одного (единственного) исследования.

И не имеет общего с выявлением недостоверностей у прежних исследований путем последующей "квазиверификации", о чем здесь вроде речь.

Грубо говоря, допустим в первом исследовании а) сами исследователи фальсифицировали результаты своего исследования (неважно почему), подправляя ответов всех респондентов из среза $A \textbackslash C$, и не трогая ответов респондентов из $C$.

Очевидно, последующее независимое "проверочное исследование" типа б) такую фальсификацию уловить неспособно, поскольку респондентов из $A \textbackslash C$ в нем попросту нет - и оно (неправильно) будет считаться "подтверждением" выводов исследования a) включая и вес подправленных ответов для $A \textbackslash C$.

(Конечно не обязательно чтобы исследователи в первом исследовании сознательно искажали результаты - достаточно чтобы искажения/ошибка у них кореллировала со срезом $A \textbackslash C$. Почему такие искажения/ошибки возникли, можно ли было их устранить и как - совершенно отдельный вопрос).

А если почему-то мы изначально аксиоматически считаем любые исследования полностью репрезентативными и достоверными - то все последующие "квазиверификации" теряют смысл, потому что нечего им верифицировать - по определению они не могут никаких ошибок/искажений выявить в любых прежних исследований, ибо все и так всегда было достоверно и репрезентативно по определению; тогда непонятно вообще о чем речь.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:50 
Заслуженный участник
Аватара пользователя


11/12/05
10227
Ghost_of_past в сообщении #1673410 писал(а):
Вы понимаете, какой из 3 типов моделей панельных данных нам здесь нужен? Мы здесь используем в качестве модели регрессию пула, модель с фиксированными эффектами или модель со случайными эффектами? Однофакторную или двухфакторную модель?
Я этого не знаю. До этого времени просто следовал тому, что Вы объяснили раньше. С регрессией пула или фиксированными моментами не знаком. Если можете опять объяснить доходчивым языком как в прошлый раз, попробую разобраться.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 03:14 


31/01/24
1097
Brussels, Belgium
manul91 в сообщении #1673411 писал(а):
достаточно чтобы искажения/ошибка у них кореллировала со срезом $A \textbackslash C$


Но ведь ничто не помешает нам провести тест Арельяно-Бонда и либо обнаружить автокорреляцию остатков в этих двух срезах, представляющих собой части единой панели, либо обнаружить отсутствие автокорреляции?

Даже если у нас несбалансированная панель с искажениями между срезами $A \textbackslash C$ и $C$, то мы можем просто включить индивидуальные дамми срезов как дополнительные фиксированные эффекты и/или временные дамми как дополнительные случайные эффекты, и провести модифицированный тест Арельяно-Бонда для несбалансированной панели по индивидуальным и/или временным факторам.

Если искажения нет, то на выходе для теста Арельяно-Бонда для несбалансированной панели получим ситуацию, когда:
- GLS-оценка сохраняется с учетом индивидуальных дамми срезов,
- OLS-оценка сохраняется и является BLUE при $\sigma^{2}_C=0$,
- внутригрупповая оценка (СV) сохраняется, но вычисляется соответственно по двум разным моментам времени и двум разным выборкам.

-- 06.02.2025, 03:20 --

Dan B-Yallay в сообщении #1673412 писал(а):
С регрессией пула или фиксированными моментами не знаком.


Это базовые модели панельных данных - регрессия пула, модель с фиксированными эффектами, модель со случайными эффектами. У нас здесь явная модель с фиксированными эффектами, но не чистая - судя по всему двухфакторная, так как тут есть и случайные временные эффекты, и фиксированные индивидуальные эффекты срезов. Временные эффекты же не предполагаются фиксированными?

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 03:28 
Заслуженный участник
Аватара пользователя


11/12/05
10227
manul91 в сообщении #1673411 писал(а):
Конечно не обязательно чтобы исследователи в первом исследовании сознательно искажали результаты - достаточно чтобы искажения/ошибка у них кореллировала со срезом $A \textbackslash C$. Почему такие искажения/ошибки возникли, можно ли было их устранить и как - совершенно отдельный вопрос

А есть методики устранения таких ошибок или искажений? Ведь неизвестно в какую они сторону.

-- Ср фев 05, 2025 18:29:34 --

Ghost_of_past в сообщении #1673413 писал(а):
Временные эффекты же не предполагаются фиксированными?


Мне надо почитать.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 03:32 


31/01/24
1097
Brussels, Belgium
Dan B-Yallay в сообщении #1673414 писал(а):
Мне надо почитать.


Хорошо.

Но мне предполагается, что здесь будут случайные временные эффекты - распределения $W_A$ и $W_C$ ведь предполагаются не постоянными во времени.

Если что, то можете поискать информацию, начиная отсюда.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 41 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group