2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Оценка полноты исследованности некой территории
Сообщение20.08.2018, 00:00 


20/07/16
24
Москва
Коллеги.
Есть проблема оценки полноты исследованности некой территории. На этой территории есть три вида точек: точки, о которых есть данные (одно значение), точки без данных и точки с более, чем одним значения.

{У каждого из этих данных в свою очередь есть свой вес - это может быть важно, а может и нет, не знаю}.

Теперь вопрос - как оценить, что собранная информация (с некой степенью достоверности) описывает всю очерченную территорию?

Наверняка инструмент для решения подобной задачи разработан, вот только не могу его найти.

Спасибо!

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение21.08.2018, 12:58 


05/07/18
159
Из далекой-далекой галактики.
Не совсем понятно ,что значит точка с более чем одним значением . Можно попробовать использовать аппарат мат. статистики ,а именно теорию оценивания.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение21.08.2018, 13:22 
Заслуженный участник


20/08/14
11139
Россия, Москва
Что-то мне подсказывает, что без априорных знаний о виде территории ничего оценить не получится. Например если точки описывают высоту рельефа, то при любой их плотности остаётся вероятность что ни одна из них не попала в извилистую узкую глубокую расщелину и значит они недостаточно точно описывают рельеф. Надо наверное чтобы плотность точек с известными данными везде превышала хотя бы на порядок минимальные размеры интересующих структурных объектов, ну или хотя бы вдвое если достаточно лишь факта наличия объектов без определения их параметров (размеров).

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение21.08.2018, 22:21 


20/07/16
24
Москва
Нет, значения точек никак не связаны с их местоположением (рельефом).

Что касается значений, вот как это например может быть:
Точка Значение. Вес значения
А. Есть данные (1). 1
А. Есть данные (1). 300
В. Есть данные (1) 25
С. Данных нет (0). 0

Тут три типа точек - А с несколькими не связанными группами данных, В с одной группой данных, С без данных.

Если нужно, опишу реальную задачу - это формализация оценки изученности обращения в регионе по топографии находок. А и В - точки, откуда происходят находки, С - откуда нет информации, вес значения - число предметов в находке

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение21.08.2018, 23:19 
Заслуженный участник


20/08/14
11139
Россия, Москва
Пример с рельефом привёл для пояснения. Возможно для Вашей задачи ближе будет граф с узлами находок, причём привязанный к местности (расстояниям по карте) или населённым пунктам или любым другим объектам (раскопкам, колодцам, полям, пустыням, стойбищам, плотинам, да что угодно). В зависимости от типа привязки будет разный смысл у плотности находок и соответственно разные оценки достоверности покрытия интересующей территории. Пример: сеть раскопок в чистом поле надо оценивать по другому чем раскопки в известных древних городах/стоянках. Раскопки - тоже лишь для примера, неважно что именно у Вас.
Литературу посоветовать не могу, лишь обращаю внимание что условия задачи недостаточно детализированы и потому результат оценки может отличаться на порядки, смотря что и как считать. Вы же взяли данные о количестве находок, но что и зачем по ним считать ... Без дополнительных данных в этом массиве может вообще не содержаться информации о степени изученности региона: например если именно в эти вот точки находки приплывают реками и ручьями, где их и обнаруживают рабочие (к примеру на плотинах/шлюзах/отстойниках), а в других местах людей больше, но находки туда не попадают (города).

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение22.08.2018, 11:52 


20/07/16
24
Москва
Не очень плнимаю смысл привязки к реальным объектам. С одной стороны находки действительно чаще происходят там, где много людей и ведется с/х деятельность, с другой стороны любая находка случайна.
Рассматриваемые территории очень большие (это государства или их крупные адм. единицы, это десятки тысяч км2) относительно «площади» находки (один горшок в земле).
Наверное возможно считать всю территорию однородной и существенно превышающей свои части, что подверглись обследованию («территория под находкой»).

Боюсь детализировать задачу, что б не загрузить не математическими деталями.

Спасибо!

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение22.08.2018, 12:36 
Заслуженный участник


20/08/14
11139
Россия, Москва
Любая привязка к реальным объектам (а она есть всегда, даже спутниковые снимки в населённых местах детальнее) исказит статистику. И для её восстановления Вам так или иначе придётся учитывать это искажение, причём в самих данных оно отсутствует и задаётся внешними факторами. Ещё пример такого искажения: по статистике находок на побережье обломков деревянных кораблей Вы не сможете построить карту исследованности всей площади морей/океанов. Это первое.
Второе, Вы так и не обозначили свою задачу, одно дело посчитать достоверность утверждения "исследован каждый квадратный километр территории", другое дело достоверность утверждения "исследован каждый город с населением более ста тысяч". И то и другое имеет смысл, и можно посчитать на основе одних и тех же данных, но смысл в этих числах будет разный. И таких утверждений можно придумать ещё десятки. Какое из них нужно Вам - непонятно. И этого тоже нет в данных, по ним можно считать любое из утверждений и все числа будут сильно разные. Т.е. это зависит именно от постановки задачи, что именно Вам надо посчитать. По одним и тем же данным.

Вообще, на первый взгляд это чисто вопрос статистики, надо лишь выбрать целевую функцию (с учётом возможных искажений, см. выше) и посчитать её вероятность/достоверность более-менее стандартными средствами. Большего я не подскажу, не знаю.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение22.08.2018, 13:16 


20/07/16
24
Москва
Про население мы ничего не знаем, так что можно и нужно отталкиваться от площади территории, которую всю считать однородной (Ваш пример с кораблями как раз показывает неоднородность исследованной территории: побережье vs. глубоководье).

Как тогда соотнести число находок, их плотность и общую площадь?

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение22.08.2018, 14:47 
Заслуженный участник


20/08/14
11139
Россия, Москва
Пример с кораблями показывает что в массиве данных информации об исследованности территории может не содержаться вообще или содержаться в весьма закамуфлированном виде. И чтобы это понять надо иметь ещё много фактов (или предположений) кроме самого массива данных. Т.е. иметь некую модель распределения находок, по которой и оценивать показатели. И разные модели будут давать разные величины даже одной и той же оценки на одних и тех же данных.

Ну для начала выдвиньте к примеру такие предположения: находки не перемещались к месту нахождения; от посещаемости места находки ничего не зависит; исследованным считать круг радиусом 10км (число от балды, на сколько там в среднем люди удаляются от места проживания) от места находки или её отсутствия (но наличия данных в точке, т.е. данные есть, но нулевые); маскировка находок на их обнаружение не влияет; и т.д. Вот тогда уже можно нанести находки на карту и посмотреть как минимум процент площади областей с данными (пусть и нулевыми) от общей площади. В рамках сделанных предположений (модели) это будет характеризовать процент исследованности территории. Как видите здесь я проигнорировал и повторные находки, и количество предметов в находках, их учёт требует корректировки модели, например большое количество находок (не предметов в каждой, а именно независимых) позволяет увеличить радиус исследованной территории в данной точке.
Если находки бывают территориально близкими, то можно сделать ещё допущение: считать исследованной всю область радиусом равным расстоянию между находками от отрезка между ними. Т.е. провести отрезок между ними и закрыть всю область от него таким же радиусом. Весьма вольное допущение.
Другое допущение: если находки кучкуются кластерами, то считать исследованной территорию радиусом в 10% размера кластера наружу от его выпуклой оболочки, причём величину процентов увеличивать при увеличении количества находок.
Да много всего можно придумать.

Вы по прежнему хотите чтобы за Вас сформулировали саму задачу - но откуда нам знать что именно Вам нужно? Находки метеоритов надо оценивать по другому чем находки костей мамонтов и иначе чем находки каких-нибудь грибов (подберёзовиков).
Вы уж сами определитесь что за задачу Вы решаете. Тогда станет хоть немного понятно какие факторы надо включать в модель, а какие несущественны.
Самое простое для начала - считать что каждая находка закрывает некую область вокруг себя как полностью исследованную. Уже можно применять понятия плотности и площади. Или можно коэффициент исследованности уменьшать (по экспоненте) по мере удаления от находки и складывая величины от разных находок ...

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение23.08.2018, 12:22 


20/07/16
24
Москва
Большое спасибо за дискуссию!
Задача как раз и состоит в построении первоначальной модели. Мы не можем предложить никакого критерия к выделению разных типов территорий внутри очерченных (напр., населенных и ненаселенных, равнинных и горных и пр.) так как все это не влияет на место захоронения клада.

Именно поэтому я предлагаю всю очерченную территорю считать однородной.

Все субъективные факторы (перемещение находок, формирование их состава, частота с/х работ) предланаю также нивелировать, посеольку не представляю как из можно численно использовать.

Про радиусы это очень хорошая мысль. Она приходила и мне в голову, но я пока методологически не могу объяснить а) выбор радиуса вокруг точки, б)мультипликатор радиуса если из точки происходят несколько находок, в) должен ли этот мультипликатор учитывать число предметов в находке или толькл факт самих находок.

(Извините, если слишком «рафинирую» задачу, мне просто кажется, что лишние детали могут маскировать главеое)

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение23.08.2018, 13:34 
Заслуженный участник


20/08/14
11139
Россия, Москва
Про выбор радиусов. Тут надо смотреть что вообще считать полностью исследованной территорией, ведь ясно же что точки находок никогда не будут покрывать всю территорию с шагом 1мм. Для разных условий расположения находок (на земле, под землёй, в лесу, на деревьях) и разных методов их поиска (взгляд с высоты своего роста, радар, бинокль, миноискатель, дрон, геофизические методы) можно априорно выбрать некий радиус полностью исследованной области от точки с данными.

О мультипликаторе. Тут мне кажется вопрос в интересности находок для того кто их нашёл, будет ли мотивация искать ещё, рядом, дальше, тщательнее. Ну и с родом находок это связано, например вряд ли для поиска древних стоянок людей стоит сильно увеличивать радиус при нахождении двух/трёх/четырёх близких стоянок, лучше радиус сразу задрать в десяток км (цифра с потолка) - половину среднего расстояния между такими стойбищами. А вот для кладов (денежных) увеличивать стоит: чем ценнее клад и чем их больше рядом, тем дальше перероют всю округу в поисках другого. ;-)

О содержании находок. На первый взгляд не нужно, но кто знает, предложите модель (причинную связь) связи количества предметов и процента исследованности (хотя бы как я выше про клады) - и увидите нужно ли учитывать и как именно.

PS. Да, наверное стоит пояснить, что все мои слова выше в теме должны быть преобразованы в конкретные формулы зависимостей, вероятностей, площадей и т.п. Т.е. я лишь подсказываю откуда можно взять недостающее число или формулу, но ни в коем случае не призываю брать именно называемые числа или с потолка, всё надо хоть как-то обосновывать выкладками (например дальность обзора с и без бинокля) и статистикой (например зависимость удаления кладоискателей от места находки от ценности найденного клада). В массиве точек находок этих данных нет, это параметры Вашей модели.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение24.08.2018, 13:04 


20/07/16
24
Москва
Большое спасибо за ответ!
Вот что я думал:

о) Поскольку нам надо сравнивать площади, то необходимо их выделить. Как мне видится, выделение дает три типа площадей: исследованная площадь S₁, неисследованная площадь S₀ и общая площадь территории S.

1) Вся проблема заключается в определении исследованной территории.
По некотором размышлении я понимаю, что она не может быть связана с территорией с/х деятельности (город + окружность вокруг него радиусом в 10 км), иначе нам надо считать все населенные пункты и пахотные земли априори входящими в S₁, что совершенно меняет ее физический смысл.

Строго говоря, S₁ может быть определена как площадь под находками + площадь раскопов на территории S. Понятно, что S₁ исчезающе мала в соотношении с S.

2) Мы опять упираемся в начало задачи - есть территория S и на ней есть N точек с информацией, принадлежащих ей, но не имеющих площади.

3) Идея с графами мне пока что неясна — какой физический смысл будет в их ребрах?

4) С мультипликатором (в части денежных кладов, у меня речь именно о них) согласен. Днйствительно, находка клада модет спровоцировать дальнейшие поиски в этой области, хотя археологические и нумизматические своды не содержат прямых свидетельств об этом. Но опять-таки, как это выразить численно?

5) Про связь числа находок и места. Действительно, наблюдаются некоторые экстремумы: например, большое число одиночных находок медных монет, зафиксированное немцами-колонистами в окрестностях их городка в Закавказье. Совершенно иное (пренебрежительное) отношение к меди у местного населения вызывает ноль с иных территорий. Но в общем нет связи объема находки и места находки.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение24.08.2018, 14:31 
Заслуженный участник


20/08/14
11139
Россия, Москва
0) А разве разность $S-(S_0+S_1)$ (формулы надо оформлять именно так) может быть ненулевой? Т.е. есть ещё какая-то территория кроме исследованной и неисследованной? Вы об этом не говорили.
1) Ну а почему бы не записать с/х и городскую площади в $S_1$? По моему их как раз вполне можно считать исследованными. Если под исследованностью понимать перекоп верхних 20см почвы. :mrgreen:
2) Физически да, площадь околонулевая. Но вот приписать каждой находке какую-то площадь никто не мешает. Вопрос лишь какую.
3) Думаю графы уже неактуальны, с ними я пытался уйти от территориальности и площадей, а учесть взаимосвязь находок. Теперь понятно что это не работает.
4) Да как угодно, хоть домножить радиус на логарифм ценности, хоть на нормированную экспоненту ценности (это всё попытка учесть нелинейность интереса), хоть просто на ценность. Тут выбор обусловлен характером находок и выбирать (и обосновывать выбор) Вам.

Ещё идея по определению площадей. Провести кластерный анализ находок, чтобы хотя бы часть из них скучковались в локальные скопления, и для них вычислить среднее расстояние между находками внутри скопления $R_{min}$ и среднее расстояние между скоплениями $R_{max}$. Соответственно можно будет выдвинуть два предположения: 1) на расстоянии $R_{min}$ вокруг каждой находки нет других неизвестных находок; 2) на расстоянии $R_{max}$ вокруг каждой находки нет неизвестных больших скоплений находок. И ту и другую площадь (и даже какую-нибудь их комбинацию) можно принять за процент исследованности.
Ещё идея: постройте гистограмму встречаемости расстояний между находками, там будет минимум расстояния (возможно нулевой) и максимум, но огибающая явно не будет прямой, где-то недалеко от минимума будет резкий спад частоты, вот где спад становится двухкратным (или в $e$ раз или в $1{,}618$ раз) и принять за радиус исследованности вокруг каждой находки. Кстати сам вид этой кривой может что-то подсказать.

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение02.09.2018, 03:39 


20/07/16
24
Москва
Простите за молчание - был в отъезде, но думал.

0) Все верно, $S = S_1$+S_0$.

1) Тут возникают неизвестные, но весьма существенные коэффициенты, связанные с добропорядочностью находчика - если археолог фиксирует 100% информации, то о скольких процентах мы узнаем после с/х работ вопрос открытый :)

2, 4) Понял вас. Пытаюсь найти обоснование какому-либо радиусу вокруг находки и коэффициентам ценности. Хотя мне кажется, что кластерный анализ более продуктивен.

Большое спасибо за подсказку о кластерном анализе. Физический смысл обоих $R$ ясен. Я правильно понимаю, что окружности, очерченные $R_\min$ входят в окружности, очерченные $R_\max$?

Про огибающую очень интересно, но пока не могу представить себе как можно высчитать расстояния между всеми парами находок, поскольку данные существуют в виде географических координат.

Да, и еще момент - кластерный анализ покажет, какие площади исследованы, а какие нет. А как узнать, насколько полно (с некой вероятностью) они исследованы? Т. е. с какой вероятностью все будущие находки на территории $S$ будут происходить с выделенных радиусов вокруг кластеров (будь то суперпозиция $R_\min$ или "большие" $R_\max$)?

 Профиль  
                  
 
 Re: Оценка полноты исследованности некой территории
Сообщение02.09.2018, 17:39 


20/07/16
24
Москва
Написалось :idea:

Важным является вопрос полноты археологической изученности $V_S$ территории $S$, на основании которой можно судить о достаточности сведений для восстановления картины обращения. Такая изученность определяется на основании находок любого времени и любого содержания с очерченной территории. Иными словами позитивным образом используются данные «археологической пустоты» как в нумизматическом смысле (находки или раскопки, не содержащие монет), так и в смысле tpq монетных находок (находки монет любого времени).

Существующую несоотносимость исчезающе малых «археологически исследованных» площадей и площадей «под находками» с общей площадью территории ($S_f$\ll$S$) видится возможным упростить с привлечением кластерного анализа, продуктивно применяемого в археологии, биологии и социологии для решения вопросов группировки объектов и признаков.
Кластером называется такая группа объектов, среднее расстояние между которыми (связь) превышает среднее расстояние (связь) этих элементов с остальными элементами. Для наших целей необходимо выделить кластеры $C_i … C_j $ в множестве находок $f$. Задача эта, надо отметить, может не иметь единственного решения. Для ее осуществления необходимо предварительное топографирование находок, которое либо позволит решить эту задачу визуально, либо же путем последовательного сравнения расстояний между всеми находками $f$.

Получаемое среднее расстояние между находками $r$ внутри каждого из кластеров является радиусом территории, на которой нет других находок. Суперпозиция окружностей с радиусами равными $r$ будет задавать информационно значимую область $S_r$ вокруг некого кластера $С $. В свою очередь площадь окружности $S_R$, радиусом которой является среднее расстояние $R$ между геометрическими центрами кластеров, будет задавать область, вокруг которой кластеры не обнаружены. Поскольку $r<R$, то очевидно, что $S_r<S_R$. В практических целях можно считать, что $S_r \in S_R$, так что информационно значимой оказывается их разность $\Delta S = S_R - S_r$.

Очевидно, что у полученных методом кластерного анализа площадей $S_r$ и $\Delta S$ должен быть разный вес при оценки через них $V_S$. Площадь $S_r$, как видится, можно использовать без коэффициента поправки. Однако представляется, что для $\Delta S$ такой коэффициент должен быть обратно пропорционален отношению $\Delta S / S_r$ — иными словами, чем больше площадь $\Delta S$ относительно площади $S_r$ с установленным коэффициентом 1, тем меньше мы о ней знаем и тем ниже ее коэффициент поправки, т. е. $k = S_r / \Delta S$. Таким образом,

$$  

V_S = \frac{1\cdot S_r + k \cdot \Delta S}{S} = \frac{S_r + \frac{S_r}{\Delta S}\cdot \Delta S}{S} = \frac{2 S_r}{S}

$$

Любопытно, что в таком случае неважным оказывается взаимное расположение кластеров и расстояния между ними.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group