2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Верификация результатов прошедших исследований
Сообщение05.02.2025, 23:56 
Заслуженный участник
Аватара пользователя


11/12/05
10225
В данной теме планируется рассмотреть модельный пример социологического(их) исследования(й) и методы верификации следствий(гипотез) из этого(их) исследования(й) .

Насколько я понимаю, типичное исследование, описанное в примере, выглядит так:

Есть некая популяция $A$ (генеральная совокупность) с некоторым распределением $W_A$ интересующей нас величины $x$ (в модельном примере это отношение к лгбт). Мы не можем опросить всё население, чтобы получить $W_A$. Поэтому, чтобы получить с хорошей достоверностью картину этого распределения, мы делаем достаточно широкую репрезентативную выборку/панель $s$, изучаем распределение на ней $W_s$ и переносим этот результат на $A$, то есть, считаем, что $W_A = W_s$. Это и есть результат исследования, как это следует из модельного примера
См. картинку:
Вложение:
f.jpg
f.jpg [ 29.67 Кб | Просмотров: 0 ]


Далее, пусть через время $T$ нам понадобилось по каким-то соображениям подтвердить, что (во время исследования а)) распределение величины $х$ по генеральной совокупности $A$ было действительно равно именно $W_s$,а не чему-то другому. Так как со временем взгляды людей могут меняться, то повторять без модификации то же самое исследование в текущее время бессмысленно -- оно покажет совсем другое. Если я правильно понимаю описание процедуры данное ув. Ghost_of_past , то из всей популяции $A$ выделяется подмножество особей $C$, про которых известно, что их отношение к лгбт не изменилось статистически значимо. Из $C$ делается выборка/панель $q$ по параметрам эквивалентная той панели, которая использовалась для исследования а). То есть величины всех переменных (таких как пол/возраст/образование/доход и тд) равны или близки. Предполагается, что $C$ достаточно большое, чтобы делать разумное количество таких выборок.

(описание процедуры данное ув. Ghost_of_past)

Ghost_of_past в сообщении #1673065 писал(а):
Если опрос проводился по панели (а лонгитюдные опросы - самые качественные), то у нас есть возможность определить значения других независимых переменных в панели на момент проведения опроса по свойствам выборки - например, в панели опрашивалось 1200 человек с определенным половым/гендерным составом, возрастным составом, образовательным составом, географическим составом и т.д. В квазиэкспериментальном воспроизведении мы возьмем выборку с большинством сходных характеристик по этим переменным, репрезентативным стране в целом, но опросим какую-то группу, где нет статистического значимого изменения - например, представителей какого-то социального класса или жителей каких-то конкретных типов населенных пунктов/штатов и т.д., сохраняя репрезентацию распределения значений других переменных изначальной выборке.


Далее проделывается такая же работа над $q$, находится $W_q$ и сравнивается с $W_s$.
См. картинку:
Вложение:
e.jpg
e.jpg [ 25.09 Кб | Просмотров: 0 ]


Пока на этом останавливаюсь, чтобы убедиться, что я я двигаюсь в верном направлении.
Прошу Ghost_of_past поправить меня если это необходимо.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 00:54 


31/01/24
1094
Brussels, Belgium
Во-первых, я не вижу, как учитывается квотная структура. Сколько в выборке из панели $s$ будет квотных срезов $n$, чтобы образовалась квотная структура $s_n$?

Просто это важно, т.к. от этого зависит и объем набираемой выборки $s$, и сложность проведения квазиэкспериментального воспроизведения, так как нужно понимать, сколько контрольных переменных тут будет. При этом на квотную ячейку по пересекающимся квотам должно приходиться ну хотя бы больше $50$ респондентов, а иначе не хватит объема для статистически значимых выводов.

Приведу пример: есть $3$ среза ($n=3$) - доходы, образование, география. Пусть в доходах будет $3$ группы, в образовании $5$ групп и в географии $5$ макрорегионов страны. Тогда потребуется $75$ ($3\times5\times5$) квотных ячеек и чтобы каждая была не меньше $50$ человек - значит нужно не менее $3750$ респондентов. В реальности нужен еще помимо основной выборки на всякий случай буст, пусть $10\%$, т.е. уже $4125$ респондентов. При стандартном онлайн-опросе по панели достижимость аудитории будет $41-60\%$ и завершаемость опроса будет где-то около $15\%$. Соответственно нам нужно, чтобы мы разослали опрос в панели минимум $55 000$ людей.

Во-вторых, все-таки набираем подвыборку $c$ по выборке $s$ эквивалентную по квотной структуре подмножеству $C$ по генеральной совокупности $A$ - для этого и нужна панель, так как нам тяжело определить $C$ в $A$, но в панели легко найти, кому разослать ссылку на опрос, чтобы квотная структура и значение контрольных переменных было таким же, как у $c$ в выборке $s$.

В остальном всё верно.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:13 
Заслуженный участник
Аватара пользователя


11/12/05
10225
Ghost_of_past в сообщении #1673398 писал(а):
Во-первых, я не вижу, как учитывается квотная структура. Сколько в выборке из панели $s$ будет квотных срезов $n$, чтобы образовалась квотная структура $s_n$?
Этот вопрос мне понятен. Давайте предположим, что социологи сочли исследование важным и поэтому в выборку $с$ включили достаточное количество срезов.

Ghost_of_past в сообщении #1673398 писал(а):
Во-вторых, все-таки набираем подвыборку $c$ по выборке $s$ эквивалентную по квотной структуре подмножеству $C$ по генеральной совокупности $A$
У меня нет выборки $c$ а есть выборкa $q$. Если речь о ней, то квотная структура панели для квазиэсперимента подбирается эквивалентной квотной структуре $s$.
Под этим я имею в виду, что значения переменных в квотных ячейках панели $q$ равны или близки соотв. значениям которые были у панели $s$

Правильно?

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:19 


31/01/24
1094
Brussels, Belgium
Dan B-Yallay в сообщении #1673401 писал(а):
Давайте предположим, что социологи сочли исследование важным и поэтому в выборку $с$ включили достаточное количество срезов.


Тогда все стандартно:
- пол/гендер;
- возраст;
- доход;
- образование;
- география (но не штаты, а лучше размер населенного пункта по интервальным значениям).

Dan B-Yallay в сообщении #1673401 писал(а):
есть выборка $q$


Ок.

Dan B-Yallay в сообщении #1673401 писал(а):
Правильно?


Да, всё так.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:33 
Заслуженный участник


24/08/12
1140
Dan B-Yallay
Имхо такую проверку можно считать подтверждением достоверности выводов первого исследования только насчет той доли $C$ которая входила в $W_s$.
Например, если в панели первого исследования были вопросы на которых респонденты из $C$ отвечали коректно (в смысле таким образом что это репрезентативно для вывода $W_A = W_s$ для фракции $C$), а респонденты из группы $A \textbackslash C$ почему-то врали (тем самым искажая результаты делая их недостоверными для $W_A$ для фракции $A \textbackslash C$) - то на втором исследовании это никак не скажется, поскольку в нем фракция $A \textbackslash C$ никак не участвует.
Наверно поэтому такая верификация и "квази".

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:38 
Заслуженный участник
Аватара пользователя


11/12/05
10225
Ghost_of_past в сообщении #1673402 писал(а):
Да, всё так.

Хорошо, тогда давайте глянем на более детальную картину:
Вложение:
d.jpg
d.jpg [ 39.75 Кб | Просмотров: 0 ]

Слева у нас панель $s$ является репрезентативной для всей генеральной совокупности $A$. А справа в квазиэксперименте мы делаем эквивалентную по квотным ячейкам панель $q$, но уже из специально выбранного подмножества $C \subset A$, причём критерий для выбора в это множество $C$ некоторым образом связан с интересующей нас величиной $x$: у них он не должен был меняться. Это настораживает, потому, что для подсчёта некоторой величины, мы набираем людей по какому-то признаку этой самой величины.
Очевидно, что распределение величины $x$ в панели $q$ будет показывать расределение $W_C$.

Поэтому вопрос: откуда нам известно, что во время исследования а) распределения $W_A$ и $W_C$ были равны?

-- Ср фев 05, 2025 16:40:12 --

manul91 в сообщении #1673404 писал(а):
Имхо такую проверку можно считать подтверждением достоверности выводов первого исследования только насчет той доли $C$ которая входила в $W_s$.
У меня похожее ощущение и я пытаюсь его строго сформулировать.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:52 
Заслуженный участник


24/08/12
1140
Dan B-Yallay в сообщении #1673405 писал(а):
У меня похожее ощущение и я пытаюсь его строго сформулировать.
Ну по-моему это совсем ясно.
Если в первом исследовании есть искажения/недостоверности которые коррелируют как раз со срезом "отношение к лгбт меняется статистически значимо" (что у вас обозначено как $A \textbackslash C$), то на втором ("верифицирующем") исследовании это никак не скажется - просто потому, что в нем $A \textbackslash C$ вообще никак не участвует.
Т.е. таких искажений (или неискажений) второе исследование не может ни подтвердить ни отвергнуть - оно попросту никак с ними не связано.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 01:57 


31/01/24
1094
Brussels, Belgium
Dan B-Yallay в сообщении #1673405 писал(а):
мы делаем эквивалентную по квотным ячейкам панель $q$


Не совсем так - панель у нас ровно одна. Панель - это одна система с респондентами и значениями их переменных, и она постоянно поддерживается и обновляется. А по этой одной панели мы уже набираем выборки $s$ и $q$.

Dan B-Yallay в сообщении #1673405 писал(а):
откуда нам известно, что во время исследования а) распределения $W_A$ и $W_C$ были равны?


А нам это и не известно - мы эту информацию должны получить. Для этого из $W_s$ мы должны получить $W_C$ по той части $C$, что входила в $s$ (для этого нам и нужно, чтобы в ячейках по пересекающимся срезам был нужный объем выборки для дальнейшего сопоставления), а потом мы $W_C$ сопоставляем с $W_A$ ($=W_s$) через взвешивание наблюдений.

-- 06.02.2025, 02:03 --

manul91 в сообщении #1673407 писал(а):
Если в первом исследовании есть искажения/недостоверности


Их не должно быть, т.к. для этого мы и используем репрезентативную населению в целом панель с большим числом респондентов. То есть результаты будут достоверными как минимум в том смысле, что они репрезентативны $A$.

Другое дело, что сами респонденты при этом могут давать социально одобряемые ответы, но это уже устанавливается и устраняется не средствами статистики, а через социологический инструментарий опроса - вводится скрининг-раздел; используются корректные формулировки; вводятся повторные проверочные вопросы с другой формулировкой того же самого вопроса; производится чистка панели от респондентов, по контрольным переменным в панели которых мы знаем информацию, а в опросе они указывают другую (например, по панели при регистрации респондента был указан возраст 34 года, а в опросе потом человек указывает возрастной интервал 55-64 года) и т.д.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:05 
Заслуженный участник
Аватара пользователя


11/12/05
10225
manul91 в сообщении #1673407 писал(а):
Т.е. таких искажений (или неискажений) второе исследование не может ни подтвердить ни отвергнуть - оно попросту никак с ними не связано

Вот именно. Я не статистик, поэтому пришлось прибегнуть к картинкам, чтобы понять.

-- Ср фев 05, 2025 17:26:22 --

Ghost_of_past в сообщении #1673408 писал(а):
Не совсем так - панель у нас ровно одна. Панель - это одна система с респондентами и значениями их переменных, и она постоянно поддерживается и обновляется. А по этой одной панели мы уже набираем выборки $s$ и $q$.

Спасибо, я подразумевал это.

Ghost_of_past в сообщении #1673408 писал(а):
А нам это и не известно - мы эту информацию должны получить.

Да. Мы должны были получить эту информацию, чтобы подтвердить результаты исследования а) про все население. А получили распределение, которое никак к результатам а) не относится.



Я предлагаю пока искажения и недостоверности не трогать. Вопрос остётся даже если никаких искажений нет.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:30 


31/01/24
1094
Brussels, Belgium
Dan B-Yallay в сообщении #1673409 писал(а):
Мы должны были получить эту информацию, чтобы подтвердить результаты исследования а) про все население.


Не торопите события. Мы сперва должны понять, как соотносятся $W_C$ и $W_A=W_s$ между собой и понять, нужно ли нам будет делать взвешивание.

Dan B-Yallay в сообщении #1673409 писал(а):
А получили распределение, которое никак к результатам а) не относится.


Соотносится или не соотносится - это мы проверим через спецификационные тесты.

Вы понимаете, какой из 3 типов моделей панельных данных нам здесь нужен? Мы здесь используем в качестве модели регрессию пула, модель с фиксированными эффектами или модель со случайными эффектами? Однофакторную или двухфакторную модель?

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:35 
Заслуженный участник


24/08/12
1140
Ghost_of_past в сообщении #1673408 писал(а):
Их не должно быть, т.к. для этого мы и используем репрезентативную населению в целом панель с большим числом респондентов. То есть результаты будут достоверными как минимум в том смысле, что они репрезентативны $A$.
Другое дело, что сами респонденты при этом могут давать социально одобряемые ответы, но это уже устанавливается и устраняется не средствами статистики, а через социологический инструментарий опроса - вводится скрининг-раздел; используются корректные формулировки; вводятся повторные проверочные вопросы с другой формулировкой того же самого вопроса; производится чистка панели от респондентов, по контрольным переменным в панели которых мы знаем информацию, а в опросе они указывают другую (например, по панели при регистрации респондента был указан возраст 34 года, а в опросе потом человек указывает возрастной интервал 55-64 года) и т.д.
Так все это относится к повышением репрезентативности/достоверности одного (единственного) исследования.

И не имеет общего с выявлением недостоверностей у прежних исследований путем последующей "квазиверификации", о чем здесь вроде речь.

Грубо говоря, допустим в первом исследовании а) сами исследователи фальсифицировали результаты своего исследования (неважно почему), подправляя ответов всех респондентов из среза $A \textbackslash C$, и не трогая ответов респондентов из $C$.

Очевидно, последующее независимое "проверочное исследование" типа б) такую фальсификацию уловить неспособно, поскольку респондентов из $A \textbackslash C$ в нем попросту нет - и оно (неправильно) будет считаться "подтверждением" выводов исследования a) включая и вес подправленных ответов для $A \textbackslash C$.

(Конечно не обязательно чтобы исследователи в первом исследовании сознательно искажали результаты - достаточно чтобы искажения/ошибка у них кореллировала со срезом $A \textbackslash C$. Почему такие искажения/ошибки возникли, можно ли было их устранить и как - совершенно отдельный вопрос).

А если почему-то мы изначально аксиоматически считаем любые исследования полностью репрезентативными и достоверными - то все последующие "квазиверификации" теряют смысл, потому что нечего им верифицировать - по определению они не могут никаких ошибок/искажений выявить в любых прежних исследований, ибо все и так всегда было достоверно и репрезентативно по определению; тогда непонятно вообще о чем речь.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 02:50 
Заслуженный участник
Аватара пользователя


11/12/05
10225
Ghost_of_past в сообщении #1673410 писал(а):
Вы понимаете, какой из 3 типов моделей панельных данных нам здесь нужен? Мы здесь используем в качестве модели регрессию пула, модель с фиксированными эффектами или модель со случайными эффектами? Однофакторную или двухфакторную модель?
Я этого не знаю. До этого времени просто следовал тому, что Вы объяснили раньше. С регрессией пула или фиксированными моментами не знаком. Если можете опять объяснить доходчивым языком как в прошлый раз, попробую разобраться.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 03:14 


31/01/24
1094
Brussels, Belgium
manul91 в сообщении #1673411 писал(а):
достаточно чтобы искажения/ошибка у них кореллировала со срезом $A \textbackslash C$


Но ведь ничто не помешает нам провести тест Арельяно-Бонда и либо обнаружить автокорреляцию остатков в этих двух срезах, представляющих собой части единой панели, либо обнаружить отсутствие автокорреляции?

Даже если у нас несбалансированная панель с искажениями между срезами $A \textbackslash C$ и $C$, то мы можем просто включить индивидуальные дамми срезов как дополнительные фиксированные эффекты и/или временные дамми как дополнительные случайные эффекты, и провести модифицированный тест Арельяно-Бонда для несбалансированной панели по индивидуальным и/или временным факторам.

Если искажения нет, то на выходе для теста Арельяно-Бонда для несбалансированной панели получим ситуацию, когда:
- GLS-оценка сохраняется с учетом индивидуальных дамми срезов,
- OLS-оценка сохраняется и является BLUE при $\sigma^{2}_C=0$,
- внутригрупповая оценка (СV) сохраняется, но вычисляется соответственно по двум разным моментам времени и двум разным выборкам.

-- 06.02.2025, 03:20 --

Dan B-Yallay в сообщении #1673412 писал(а):
С регрессией пула или фиксированными моментами не знаком.


Это базовые модели панельных данных - регрессия пула, модель с фиксированными эффектами, модель со случайными эффектами. У нас здесь явная модель с фиксированными эффектами, но не чистая - судя по всему двухфакторная, так как тут есть и случайные временные эффекты, и фиксированные индивидуальные эффекты срезов. Временные эффекты же не предполагаются фиксированными?

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 03:28 
Заслуженный участник
Аватара пользователя


11/12/05
10225
manul91 в сообщении #1673411 писал(а):
Конечно не обязательно чтобы исследователи в первом исследовании сознательно искажали результаты - достаточно чтобы искажения/ошибка у них кореллировала со срезом $A \textbackslash C$. Почему такие искажения/ошибки возникли, можно ли было их устранить и как - совершенно отдельный вопрос

А есть методики устранения таких ошибок или искажений? Ведь неизвестно в какую они сторону.

-- Ср фев 05, 2025 18:29:34 --

Ghost_of_past в сообщении #1673413 писал(а):
Временные эффекты же не предполагаются фиксированными?


Мне надо почитать.

 Профиль  
                  
 
 Re: Верификация результатов прошедших исследований
Сообщение06.02.2025, 03:32 


31/01/24
1094
Brussels, Belgium
Dan B-Yallay в сообщении #1673414 писал(а):
Мне надо почитать.


Хорошо.

Но мне предполагается, что здесь будут случайные временные эффекты - распределения $W_A$ и $W_C$ ведь предполагаются не постоянными во времени.

Если что, то можете поискать информацию, начиная отсюда.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 37 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group