Критерии для отбора признаков классификации

Geen · 18.09.2022, 23:27

ozheredov в сообщении #1564941 писал(а):

вообще знали, что такое метрика.

В этом нет необходимости.

ozheredov · 19.09.2022, 10:34

Geen в сообщении #1564947 писал(а):

В этом нет необходимости.

Ок, тогда расскажите Вы, каким образом биологи разделили животных на Принадлежащих Императору, Бесчисленных и Нарисованных тончайшей кисточкой из верблюжьей шерсти и эта классификация чудесным образом подтвердилась ДНК-анализом. :?:

-- 19.09.2022, 10:41 --

Geen
Заодно интересно, почему панда не плотоядна, но называется "хищник". Это очень напоминает ситуацию, когда на основе пристрастно отобранных прецедентов мы делаем вывод, что у Пети выпадают только орлы, а у Васи -- только решки. А затем просто называем Васины орлы -- решками, а Петины решки -- орлами.

mihaild · 19.09.2022, 11:29

ozheredov в сообщении #1564941 писал(а):

То есть я правильно понял, что результат кластеризации неких объектов левой ногой по одному алгоритму (допустим) совпал с результатом по другому алгоритму, и это доказало верность представлений о процессе появления этих объектов? А какое отношение имеет одно к другому?

Это доказывает, что оба алгоритма генерируют не просто случайный шум.

ozheredov в сообщении #1564941 писал(а):

Включите в признаки число волосков на шкуре и т.д. -- посмотрим, получится ли устойчиво отличать кошку от собаки

Любой разумный алгоритм кластеризации этот признак радостно проигнорирует.

ozheredov · 19.09.2022, 15:54

mihaild в сообщении #1564964 писал(а):

Это доказывает, что оба алгоритма генерируют не просто случайный шум.

Собеседник утверждал, что это является одним из доказательств теории эволюции. У Вас есть идеи, каким образом то, что оба алгоритма генерируют не просто случайный шум, доказывает теорию эволюции?

mihaild в сообщении #1564964 писал(а):

Любой разумный алгоритм кластеризации этот признак радостно проигнорирует.

При каком распределении признаков? Числе обучающих прецедентов? А если таких "мусорных" признаков очень много?

Кстати, может быть -- надо подумать.

mihaild · 19.09.2022, 16:32

ozheredov в сообщении #1564994 писал(а):

У Вас есть идеи, каким образом то, что оба алгоритма генерируют не просто случайный шум, доказывает теорию эволюции?

Конечно. Теория эволюции предсказывает, что даже если есть несколько сильно разных способов закодировать какой-то признак, то он всё равно как правило будет закодирован одним и тем же способом у разных организмов (т.к. скорее всего они этот признак унаследовали от общего предка).

Про то, как строилась классификация - а каким образом Коперник UPD (позор мне, но хоть сам заметил) Кеплер догадался, что нужно смотреть на координаты планет, а на урожай в прошлом году смотреть не нужно? (или если этих данных не было в записях Тихо Браге - каким образом он догадался, что нужно записывать, а что нет?)

ozheredov · 19.09.2022, 18:22

mihaild в сообщении #1565001 писал(а):

Теория эволюции предсказывает, что даже если есть несколько сильно разных способов закодировать какой-то признак, то он всё равно как правило будет закодирован одним и тем же способом у разных организмов (т.к. скорее всего они этот признак унаследовали от общего предка).

М-да, неплохо Вы меня урыли, респект. Ладно, сдаюсь - Вы лучше меня.

mihaild в сообщении #1565001 писал(а):

каким образом Коперник догадался, что нужно смотреть на координаты планет, а на урожай в прошлом году смотреть не нужно?

Я думаю, это вопрос из разряда "Почему таракан знает, что нужно бежать от тапка, а не к тапку?". Это знание не формализуется - интуиция. Интуиция это не наука, а биолигия -- наука. И вопрос был: как построить формальную систему, которая у любого применяющего ее человека (робота, обезьяны) даст один и тот же результат. Если бы ответ на вопрос ТСа был: "Биологи интуитивно построили абсолютно верную классификацию -- вот хоть стой хоть падай, а это так", вопросов бы не возникло, но биология перешла бы из разряда "нвука" в разряд "искусство".

panda-walker · 19.09.2022, 18:57

Если кому будет интересно...

Благодаря ссылкам на Wiki, любезно предоставленным zykov, я докликал до списка литературы раздела "Таксон". Там, в свою очередь, нашел две интересные на мой взгляд книги по теме:
1) Шаталкин А. И. Биологическая систематика. — М.: Изд-во Моск. ун-та, 1988.
2) Шипунов А. Б. Основы теории систематики. — М.: Книжный дом «Университет»

Просмотрел. Судя по всему, описывается на системном уровне и в историческом контексте.

mihaild · 19.09.2022, 21:17

ozheredov в сообщении #1565011 писал(а):

Интуиция это не наука, а биолигия -- наука

А астрономия?

ozheredov в сообщении #1565011 писал(а):

И вопрос был: как построить формальную систему, которая у любого применяющего ее человека (робота, обезьяны) даст один и тот же результат.

Как построить формальную систему, которая позволит любому человеку получить законы Кеплера так, как это сделал он? (не выводя из закона всемирного тяготения или чего-то еще более продвинутого)

ozheredov · 19.09.2022, 22:09

mihaild
Я там несколько криво написал. На самом деле роль интуиции огромна в любой интеллектуальной деятельности, тем более в науке. Но: интуиция формирует сырой кирпич, неготовый ко встраиванию в научную картину. Кирпич "обжигает" формализация и последующая проверка (заметим, что проверить можно только нечто формализованное). Если законы Кеплеру приснились во сне, но потом он встал, сформулировал, что какое квадраты, периоды, кубы и полуоси, записал известное соотношение, и теперь любой робот и обезьяна может посмотреть в телескоп на любую планету, измерить периоды и полуоси, возвести в куб и квадрат, подставить и получить нужное равенство -- это наука.

Если какой-то Карл Линней расклассифицировал нечто на основе левой ноги (интуиции), но затем (он или его последователи) четко сформулировал критерии, через которые любой робот и обезьяна может отнести любое наперед заданное существо, скажем, Чужого или Некроморфа к определенному классу, а затем ДНК-анализ подтвердит этот выбор -- это наука. Собственно, вопрос ТСа касался устройства этих критериев -- почему есть отряд "позвоночные", но нет отряда "зеленоглазые". Получается, признак наличия хребта более значим, чем признак наличия зелености глаз, однако некий пользователь начал кричать, что нет никаких приоритетов признаков. Или есть какие-то другие признаки, по которым все объекты, имеющие хребет, оказываются в одном кластере? В общем, вместо четких ответов полезли противоречия, а затем обвинения в невежестве и призыв читать учебники, что само по себе признак ))

zykov · 19.09.2022, 22:23

Я тут не специалист, но мне кажется, что в основе всё таки разделение на виды.
Т.е. нужны критерии, как определить, относится ли какой-то конкретный организм к этому виду, или вот к этому виду.
Отсюда и возникает набор признаков для того чтобы определять вид конкретного организма.

А потом уже эти виды можно организовывать в иерархию, используя эти признаки как меру схожести между видами.
Мера не имеет конкретного числового значения, но есть интуиция, что если вид A и вид B имеют 90 схожих признаков и 10 различных, а вид A и вид C имеют 50 схожих признаков и 50 различных, то B ближе к A, чем C к A.
(Можно было бы взять количество схожих признаков за числовую меру, но наверно не все признаки равнозначны. Плюс, наверно и схожесть признаков имеет не характер "да-нет", а какие-то градации.)

ozheredov · 19.09.2022, 23:32

zykov в сообщении #1565032 писал(а):

нужны критерии, как определить, относится ли какой-то конкретный организм к этому виду, или вот к этому виду.

Имхо, лучше "2 организма относятся к одному или к разным видам".

zykov в сообщении #1565032 писал(а):

если вид A и вид B имеют 90 схожих признаков и 10 различных, а вид A и вид C имеют 50 схожих признаков и 50 различных, то B ближе к A, чем C к A.

Из одного признака можно сделать миллиард (скажем, по принципу one-hot-point). Аналогично, из миллиарда можно (допустим, выпуклой комбинацией с нормировкой) сделать один

То есть, куча равнозначных направлений, куда копать. И если с Кеплером более-менее предсказуемо (чтобы вычислить координаты планет, нужно смотреть на планеты, а не на пшеницу), то каким образом биологи без бекграунда в области анализа данных безошибочно угадали нужное направление, отбросив тупиковые? Мистика.

Doctor Boom · 20.09.2022, 02:05

panda-walker в сообщении #1564767 писал(а):

Правильно ли я понял, что в биологии сначала рассматривают на основе каких метрик может получиться "хороший" (достаточно четко изолированный) клад и только потом говорят, что применяем именно этот набор "разумных метрик" для классификации?

Не нужно никаких метрик, задача классификации решается более менее однозначно на большой совокупности признаков, принципы те же, что и построении филогенетических деревьев по ДНК, если очень грубо: сначала выделяют клады по критерию максимального числа схождения общих признаков, потом, получив первое приближение, выделяют конвергентные признаки у дальнородственных видов, и слишком дивергентные у близкородственных, уточняют дерево, еще + можно смотреть на признаки в диахронии, т.к. какова у них эволюционная история исходя из того, какое они место занимают сейчас (а также в сравнении с близкородственными видами и т.д.), короче, используется куча всего, а не так просто "берем то-то и то-то"

panda-walker в сообщении #1564767 писал(а):

Насколько я знаю, первая (или одна из первых) фундаментальная таксономия была проведена К.Линнеем в 18 веке. После этого были ли, по мере развития науки эволюционной классификации, принципиальные пересмотры признаков классификации? Или изначально было все настолько удачно, что этого не понадобилось?

Признаки могут добавляться (то же ДНК, белки и т.д.), что только уточняет классификацию.

panda-walker в сообщении #1564767 писал(а):

Означает ли это, что не все популяционное множество может скрещиваться с другим видом, а лишь какая-то его часть (случайным образом?)?

Нет, в этом плане это можно считать однородным. Я говорил про качество самой способности к скрещиванию, она убывает так - сначала свободное скрещивание, потом проблемы с гибридами разной степени, далее по нарастающей, проблемы во внутреннеутробном развитии и т.д. вплоть до зиготы и соответственно, невозможности скрещивания. Причем все это начинается позже всех других вещей, которые случаются при обособлении популяций, даже когда их уже можно считать отдельными видами, т.е. невозможность скрещивания это самый далекий рубеж.

ozheredov в сообщении #1564941 писал(а):

Разумная мысль, только вот я сильно сомневаюсь, что отцы-основатели биологической классификации умели юзать кластеризацию и вообще знали, что такое метрика.

Так она и не нужна поэтому :-)

ozheredov в сообщении #1564941 писал(а):

Более того, меня смущает выделенное слово "иногда". То есть, были случаи, когда когда однозначная топология дерева на множестве метрик не вырисовывалась, но (воображаемых рациональных) биологов это не остановило? (Реальных биологов, я думаю, не останавливает ничего и никогда).

Нет, не было. А иногда это для небиологических объектов, или модельных

ozheredov в сообщении #1564941 писал(а):

Вот и расскажите, как выделили германскую группу млекопитающих. Какой такой был проведен анализ и при помощи каких отличающихся от левой ноги инструментов.

Изучайте сравнительно- историческое языкознание и биологию

ozheredov в сообщении #1564941 писал(а):

То есть я правильно понял, что результат кластеризации неких объектов левой ногой по одному алгоритму (допустим) совпал с результатом по другому алгоритму, и это доказало верность представлений о процессе появления этих объектов? А какое отношение имеет одно к другому?

Это показало адекватность традиционной классификации, когда мы, используя разные средства, пришли к одному результату. А процесс появления объектов другой вопрос, он вытекает из иерархичности классификации и палеонтологии.

ozheredov в сообщении #1564941 писал(а):

Если я могу отличать группу мужчин от группы женщин ка по голосам, так и по внешке, то это означает, что все они родом из Караганды, а прилетели сюда на самолете?

Это не разные виды, они составляют популяцию :-)

ozheredov в сообщении #1564941 писал(а):

То есть берется миллиард признаков, включая число волосков на шкуре, вынимательно анализируется и -- бабах! -- возникает классификация, которая к тому-же совпадает с той, которую дают методы биоинформатики, на 95-99% состоящие из DS. Для меня это выглядит, мягко говоря, фантастически и требует дополнительных пояснений

Да, все так :-)

А про DS вам уже писали выше :-)

Geen в сообщении #1564683 писал(а):

Уже смешно :mrgreen:

ozheredov в сообщении #1564941 писал(а):

Выше Вы говорите, что приоритетов нет. А теперь выясняется, что есть признаки, которые выбираются ПОСТФАКТУМ, а значит, не входят в исходный набор признаков.

Разумеется, входят, из них выбирают, по какому признаку назвать кладу.

ozheredov в сообщении #1564941 писал(а):

И ПОСТ- какой -ФАКТУМ они выбираются (в какой момент времени)? Когда классификация уже подчищена с учетом совпала с результатом анализа ДНК?

Когда построили традиционную классификацию

ozheredov в сообщении #1564941 писал(а):

Включите в признаки число волосков на шкуре и т.д. -- посмотрим, получится ли устойчиво отличать кошку от собаки.

Ну и? Ничего не поменяется, топология дерева жестко определена другими признаками.

ozheredov в сообщении #1564941 писал(а):

То есть у нас новый признак -- особенности отношений между видами -- поприветствуем апплодисментами!

Это вообще не признак, выделение традиционных клад обусловнено удобством классификации определенных организмов (отсюда могут возникать бесконечные споры отряд-подотряд, семейство-надсемейство и т.д.)

ozheredov в сообщении #1564941 писал(а):

Например, я испанский летчик, но не испанец и не летаю. Хороший пример -- показательный.

Да, это к слову от условностях характерных признаков для клад :wink:

ozheredov в сообщении #1564941 писал(а):

Вспомнил анекдот про то, что математикам нужны карандаши и ластики, чтобы исправлять ошибки. А философы -- они не такие тупые, им ластики не нужны -- у них сразу все безупречно.

Эк вы целую науку (и даже науки) в философию записали, хотя этим вы охарактеризовали только себя :-)

-- 20.09.2022, 02:36 --

ozheredov в сообщении #1565030 писал(а):

Получается, признак наличия хребта более значим, чем признак наличия зелености глаз

Он таковым оказался уже пост фактум проведенной систематизации. Можно вообразить гипотетический мир, где наличие хребта было бы таким же незначимым, как и зеленые глаза (он возникал независимо в множестве разрозненных ветвей, и наоборот, в близких ветвях мог утрачиваться). IRL сюда относится теплокровность птиц и млекопитающих.
По поводу вашего

ozheredov в сообщении #1565035 писал(а):

Из одного признака можно сделать миллиард (скажем, по принципу one-hot-point). Аналогично, из миллиарда можно (допустим, выпуклой комбинацией с нормировкой) сделать один

соглашусь, поэтому мой ответ и mihaild по сути один и тот же :-)

Doctor Boom в сообщении #1565042 писал(а):

выделяют клады по критерию максимального числа схождения общих признаков

mihaild в сообщении #1565001 писал(а):

даже если есть несколько сильно разных способов закодировать какой-то признак, то он всё равно как правило будет закодирован одним и тем же способом у разных организмов (т.к. скорее всего они этот признак унаследовали от общего предка).

zykov · 20.09.2022, 02:51

ozheredov в сообщении #1565035 писал(а):

Имхо, лучше "2 организма относятся к одному или к разным видам".

Нет.
Это делается по определению понятия "вид".
А признаки как раз и нужны, чтобы определить, относится данный конкретный организм к данному виду или нет.

ozheredov в сообщении #1565035 писал(а):

Из одного признака можно сделать миллиард (скажем, по принципу one-hot-point). Аналогично, из миллиарда можно (допустим, выпуклой комбинацией с нормировкой) сделать один

Можно, но это не даст равноценных признаков.
Думаю, равноценность основана на здравом смысле. Может на частоте встречаемости.

ozheredov · 21.09.2022, 13:39

Doctor Boom в сообщении #1565042 писал(а):

Да, все так :-)

А про DS вам уже писали выше :-)

Я не понял, что смешного. На вопросы Geen не отвечает, так что будем считать, что про DS мне ничего не писали.

Doctor Boom в сообщении #1565042 писал(а):

Разумеется, входят, из них выбирают, по какому признаку назвать кладу.

На основании чего? Если голой интуиции, то и имейте мужество признать это. А если Вы стесняетесь того, что никакой методики, кроме как "Берем картину мирозданья, и тупо смотрим что к чему" в традиционной классификации на самом деле нет, то не нужно оттаптываться на мне за свои комплексы.

Doctor Boom в сообщении #1565042 писал(а):

Когда построили традиционную классификацию

Зачем выбирать что-то постфактум, если классификация уже построена? Для кросс-проверки?

Doctor Boom в сообщении #1565042 писал(а):

Ну и? Ничего не поменяется, топология дерева жестко определена другими признаками

Ничего не поменяется, если ТЕ признаки просто выписать в столбик рядом с деревом? Или если скормить алгоритму классификации, наряду с ДРУГИМИ признаками, и топология не изменится, потому что ТЕ признаки алгоритм проигнорирует? А это пооверялось? И каким образом проверялось, если алгоритма по сути нет, а есть интуиция? Признаки обезличивались и простыни таблиц давались биологам?

Doctor Boom в сообщении #1565042 писал(а):

выделение традиционных клад обусловнено удобством

В чем выражается удобство? Как для двух деревьев классификации определить, какое из них удобнее?

Doctor Boom в сообщении #1565042 писал(а):

Да, это к слову от условностях характерных признаков для клад

Т.е. признаки это вообще условность для отвода глаз, чтобы сделать вид, что у нас есть некий алгоритм, который даже использует некие признаки. При этом описать алгоритм мы не можем, а любые признаки если хочется игнорим, и хищники у нас запросто питаются травкой. Так?

Doctor Boom в сообщении #1565042 писал(а):

Эк вы целую науку (и даже науки) в философию записали

Я сравнил целую науку с философией по некоторым признакам, а не записал одно в другое.

Doctor Boom в сообщении #1565042 писал(а):

этим вы охарактеризовали только себя

После того, как Вы охарактеризовали себя количеством идиотских ухмылок на один пост, я просто не мог не ответить любезностью на любезность и не охарактеризовать себя в свою очередь.

Doctor Boom в сообщении #1565042 писал(а):

Можно вообразить гипотетический мир, где наличие хребта было бы таким же незначимым, как и зеленые глаза

Как определяется значимость? Вот так:

Doctor Boom в сообщении #1565042 писал(а):

он возникал независимо в множестве разрозненных ветвей, и наоборот, в близких ветвях мог утрачиваться

? Т.е., условно говоря , мы строим дерево на основе хребтов, и тогда глаза появляются рандомно. А если строить дерево на основе глаз, то рандомно будут появляться уже хребты.

-- 21.09.2022, 13:49 --

zykov в сообщении #1565043 писал(а):

Это делается по определению понятия "вид".

Как можно определить понятие "вид", если не через алгоритм кластеризации при наличии функции, отображающей неупорядоченную пару организмов в битовую переменную? Чисто математически? Типа определение: вид -- это такой класс объектов дяйствитильности, для которых верны утверждения: а, б, в, г, ... ?

zykov в сообщении #1565043 писал(а):

Думаю, равноценность основана на здравом смысле.

Подскажите класс алгоритмов кластеризации, эксплуатирующих некий "здравый смысл" в качестве доп.модуля.

ozheredov · 21.09.2022, 19:11

Я вот тут подумал, если строить классификацию, специально ориентируясь на "не те" признаки, то иерархический граф не будет полносвязным, он неизбежно распадется на под-деревья. Это правильная мысль или неправильная?

Научный форум dxdy

Критерии для отбора признаков классификации