2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Оценка полноты исследованности некой территории
Сообщение02.09.2018, 20:29 
Заслуженный участник


20/08/14
11780
Россия, Москва
С утра ответить не успел, а к вечеру Вы уже похоже сами разобрались. :-)
На самом деле я не вполне представляю что сам предложил, в плане кластерного анализа, Вы логично написали про критерий кластеризации, но вот как учитывать площади для меня вопрос тёмный и не уверен что Ваш вариант подходящий. Хотя если отказываетесь от географической привязки, то утверждение "неважным оказывается взаимное расположение кластеров и расстояния между ними" должно быть инвариантом (постулатом) и ничего в нём удивительного нет, чисто из соображений симметрии накладывается.
В общем мне больше сказать кажется нечего, лучше подождать если кто ещё заинтересуется проблемой. И разбирается в статистике.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение02.09.2018, 22:31 


20/07/16
24
Москва
Да, с симметрией это вы правы, хорошее подтверждение получилось.

По кластерному анализу я сверился с Федоровым-Давыдовым 1987 ("Мат. методы в археологии"), у него довольно дубово написано, так что заказал еще "Факторный, дискриминантный и кластерный анализ" 1989 г. Хотелось бы конечно понимать статистическую достоверность критериев, а также то, с какого числа находок или кластеров можно начинать такие расчеты.

Вопрос с учетом площадей действительно сложный. В примере, который я сейчас посчитал, $S = 22900 $ км2 и выделяются три кластера:
Первый кластер : $r_1 = 33$ км; $S_r \sim 1,75 \cdot \pi r_1^2 = 5840 $ км2
Второй кластер : $r_2 = 22$ км; $S_r \sim 3,5 \cdot \pi r_2^2 = 5320 $ км2
Третий кластер : $r_3 = 33$ км; $S_r \sim 1,4 \cdot \pi r_3^2 = 4790 $ км2

Сумма по кластерам $S_r = 15950 $ км2 (количество окружностей 1,75 , 3,5 и 1,4 в каждом случае прикинуто грубо, по рисунку на бумаге)

Умножать $S_r$ на 2 уже бессмысленно, так что, видимо, нужно часть с расстояниями между кластерами выкидывать, и оставить только $V_S = S_r / S$, что в этом случае даст полноту исследования в 70%.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение02.09.2018, 23:11 
Заслуженный участник


20/08/14
11780
Россия, Москва
Gandzak в сообщении #1336153 писал(а):
в этом случае даст полноту исследования в 70%.
А теперь нарисуйте карту находок для этого примера и оцените интуитивно на глаз правдоподобность такого процента, верите или нет. ;-) И не изменится ли вера в меньший процент если полностью убрать любой из кластеров. Хоть и ненаучно, но помогает отсеять явно неправдоподобные предположения в модели.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение02.09.2018, 23:43 


20/07/16
24
Москва
Мне кажется и 70% завышенным. А что вы имеете в виду под "полностью убрать любой из кластеров"?

Вот топография находок на исследуемой территории (цвет хаки и точки на нем):
https://drive.google.com/open?id=16bJan ... k6cqMFHPOA

Вот кластеры с расстояниями между точками
https://drive.google.com/open?id=1g6nUg ... PJWe7U2YCo

Вот сами кластеры
https://drive.google.com/open?id=1FFffM ... 0oMi-CCnQS
https://drive.google.com/open?id=1uIeKa ... 8GfF3wEUzH
https://drive.google.com/open?id=1yALT8 ... yD7MZV875w

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение03.09.2018, 00:02 
Заслуженный участник


20/08/14
11780
Россия, Москва
Gandzak в сообщении #1336186 писал(а):
А что вы имеете в виду под "полностью убрать любой из кластеров"?
Посчитайте сколько процентов будет если исключить точки находок одного из кластеров (мне центральный который 2 на эту роль нравится). Понятно что процент уменьшится, но вот насколько адекватно на Ваш взгляд. Может визуально уменьшение будет во много раз (подчёркиваю, чисто на Ваше мнение), а в цифрах всего лишь в полтора раза (вроде до 50%?)... Получится численно правильно (в рамках выбранной модели), но неправдоподобно, в частности из-за большой изолированности 1 и 3 кластеров в этом случае. Т.е. для большей адекватности не хватает ещё каких-то параметров оценки кроме площадей, или считать их по другому ... Повторю, это уже не наука, это Ваш человеческий фактор, мол вот результаты такой модели мне не нравятся, не похожи на правду, какую хотелось бы получить. :-)

-- 03.09.2018, 00:10 --

И всё же, попробуйте построить график (гистограмму) расстояний между находками. И расстояний между кластерами, в том числе нормированных на размер ("средний" диаметр - диаметр круга такой же площади) кластера. Могут быть интересные вещи на графиках и явно видимые пороги для критериев ... Например последний график должен сильно отличаться при исключении 2-го кластера и не столь сильно при исключении 1 или 3. Это в принципе должно было учитываться в методе площадей, но похоже недостаточно сильно влияет.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group