2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Текстовый анализ а-ля судоку-какуро
Сообщение15.03.2007, 16:17 
Аватара пользователя
Рассмотрим текст, состоящий из гласных и согласных букв и разбитый на слова. Разделим класс этих слов (в беспорядке) на два подкласса, тоже "гласный" и "согласный", таким образом, чтобы суммарное число букв (одинаковых и разных) всех слов гласного подкласса было в точности равно общему числу гласных букв исходного (охватывающего) класса, а суммарное число букв всех слов согласного подкласса равнялось бы в точности общему числу согласных букв этого же (охватывающего) класса. То же самое проделаем с каждым подклассом и получим подклассы подклассов, снова "гласные" и "согласные". И так далее. Эту последовательность шагов назовем сходящейся (слабо), если в конце концов каждый подкласс окажется состоящим из отдельного, единичного слова, опять же "гласного" или "согласного". И эту последовательность назовем сходящейся сильно, если суммарное число букв всех конечных гласных слов будет в точности равно общему числу гласных букв начального текста. Заметим, что потенциально неоднозначный выбор гласных и согласных слов ведет к сходимости при одном их выборе и сильной сходимости при другом.

Рассмотрим игрушечный пример из 6 гласных, 9 согласных и 6 слов (слогов):
Ма ша мы лась мы лом.

На первом шаге разделим слова так:
Ма ша мы лом / мы лась.

На втором шаге - так:
Ма ша // мы лом / мы // лась.

И на третьем - так:
Ма /// ша // мы /// лом / мы // лась.

Все, последовательность сошлась. Гласные слова здесь подчеркнуты; два первых слова набраны курсивом: пока не вполне ясно, какое из них гласное, и для определенности гласным считается первое слово. При этом суммарное число букв всех гласных слов равно 6 - числу гласных букв начального текста, а значит, наша последовательность сошлась сильно.

Тут возникает ряд вопросов. Каковы условия существования и единственности сходящейся последовательности, необходимые и достаточные условия сходимости? Не следует ли смягчить определение сходимости так, чтобы сходящихся последовательностей было побольше, скажем, заменить всюду слова "в точности" менее ограничительным условием "с точностью до буквы" (т.е. плюс/минус одна буква)?

Рассмотрим теперь реальный текст, пушкинский, можно считать образцовый:

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.

Как я ни пытался, найти здесь сходящуюся последовательность мне не удалось. Тем не менее мягко сходящуюся (+/- буква) последовательность, и не одну, выделить удается. Попробуйте.

Зачем все это нужно? Коль скоро согласные важнее гласных, то появляется возможность разделить текст на слова как бы важные и не столь важные. Возможно также, что наличие сходящихся (мягко) последовательностей говорит о высоком качестве текста.

 
 
 
 
Сообщение15.03.2007, 18:54 
Аватара пользователя
Цитата:
Поскольку согласные важнее гласных, то появляется возможность разделить текст на слова как бы важные и не важные.

Есть «Языки», в которых гласные отсутствуют, вааще их нет. Исходя из Вашей логики, выходит, что «Языки» без гласных имеет наивысшее качество. Интэресно… Это официальная ( научная) точка зрения?

Шимпанзе

 
 
 
 Re: Текстовый анализ а-ля судоку-какуро
Сообщение15.03.2007, 20:16 
Аватара пользователя
geomath писал(а):
Возможно также, что существование сходящихся последовательностей говорит о высоком качестве текста.


Да, Пушкину до "Маша мылом мылась" расти и расти...

 
 
 
 Re: Текстовый анализ а-ля судоку-какуро
Сообщение16.03.2007, 04:31 
geomath писал(а):
Поскольку согласные важнее гласных...
Это далеко не аксиома, все зависит от языка. Русский более консонантен, чем английский. В семитских согласные еще важнее. А вот в полинезийских возможны слова вообще без согласных.
Впрочем не удивлюсь, если под гласными Вы понимаете что-нибудь особенное.

Шимпанзе писал(а):
Есть «Языки», в которых гласные отсутствуют, вааще их нет.
Если под «Языком» Вы понимаете живой человеческий язык и не путаете язык и письменность, то приведите, пожалуйста пример.

geomath писал(а):
Рассмотрим теперь реальный пример, пушкинский, в некотором смысле эталонный...
...
Как я ни пытался, найти здесь сходящуюся последовательность мне не удалось...
...
Возможно также, что существование сходящихся последовательностей говорит о высоком качестве текста.
Какой интересный силлогизм! Присоединяюсь к Someone.

 
 
 
 
Сообщение16.03.2007, 17:55 
Аватара пользователя
Yuri Gendelman писал(а):
Русский более консонантен, чем английский. В семитских согласные еще важнее. А вот в полинезийских возможны слова вообще без согласных. Впрочем не удивлюсь, если под гласными Вы понимаете что-нибудь особенное.

В данном случае гласные русские буквы я понимаю как обычно, разве что добавляю к ним Й. А в общем случае это произвольное подмножество букв. Соответствующими будут и выделенные "гласные" слова. Насколько они важны - пока не главное. Главное - мы перенесем дихотомию "гласные - согласные" с букв на слова, правда, контекстно зависимо. А "гласность" как явление рассмотрим отдельно.

Yuri Gendelman писал(а):
Какой интересный силлогизм! Присоединяюсь к Someone.

Я имел в виду сходимость, если нужно, смягченную. Я тут подредактировал самый первый пост - перечитайте его, пожалуйста. А сейчас я собираюсь разобрать пушкинские строчки подробно - с пользой, надеюсь.

Добавлено спустя 1 час 44 минуты 41 секунду:

Этот пушкинский текст очень интересный, рассмотрим его внимательно.

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.

На первом шаге разобьем его на гласные и согласные классы так (чтобы подчеркнутых и гласных букв было равное число +/- одна буква):

Ничего не хвостом по и в глубокое /
сказала рыбка лишь воде плеснула ушла море.

На втором шаге - так:

Ничего глубокое // не хвостом по и в /
сказала воде море // рыбка лишь плеснула ушла.

На третьем - так:

Ничего /// глубокое // хвостом /// не по и в /
сказала /// воде море // рыбка ушла /// лишь плеснула.

А на четвертом и, заодно, пятом - так:

Ничего /// глубокое // хвостом /// не ///// и //// по ///// в /
сказала /// воде //// море // рыбка //// ушла /// лишь //// плеснула.

Все, конец, последовательность сошлась - сильно, но мягко. Мягко потому, что суммарное число букв - 28 - однословных гласных классов хоть на одну букву, но все же не равно общему числу - 27 - гласных букв начального текста (к тому же были и промежуточные погрешности в одну букву).

Слова ничего, лишь (глубокое, хвостом, плеснула) - гласные (согласные) однозначно в силу разбиения. Слово сказала - гласное ради обеспечения сильной сходимости; слово ушла (рыбка) - гласное (согласное) для того же. Слово по (не) - гласное (согласное) из вероятностных, парных соображений, а слово и (в) - автоматически. Слово воде (море) - гласное (согласное) условно.

В целом вид получается такой:

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.

Или красочно такой:

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.


Как видим, гласные слова тяготеют к началу, а согласные - к концу стихов. Вот вам и первый вывод (априори очевидный?).

Правда, золотая рыбка с золотым хвостом и синяя вода были бы красивее. Надо будет посмотреть, сходится ли такая последовательность...

 
 
 
 
Сообщение17.03.2007, 19:03 
Уважаемый geomath!
Позвольте дружескую пародию.

Давайте считать все натуральные числа вида (2*n-1) черными, а числа вида (2*n) - белыми (в обоих случаях n=1,2,...). Теперь рассмотрим натуральный ряд как цветную полосу. Удивительно, но она очень напоминает зебру! То есть человеческая жизнь каким-то образом связана с натуральным рядом (помните песенку: "вроде зебры жизнь, вроде зебры"). Что Вы об этом думаете? Кстати, обратите внимание, что четные и нечетные числа неожиданно оказались разного цвета.

Не обижайтесь, но я остаюсь при своем мнении: Вы либо шутник в особо изощренной форме, либо инопланетянин. :D

 
 
 
 
Сообщение19.03.2007, 18:44 
Аватара пользователя
Yuri Gendelman писал(а):
Уважаемый geomath!
Позвольте дружескую пародию.

Давайте считать все натуральные числа вида (2*n-1) черными, а числа вида (2*n) - белыми (в обоих случаях n=1,2,...). Теперь рассмотрим натуральный ряд как цветную полосу. Удивительно, но она очень напоминает зебру! То есть человеческая жизнь каким-то образом связана с натуральным рядом (помните песенку: "вроде зебры жизнь, вроде зебры"). Что Вы об этом думаете? Кстати, обратите внимание, что четные и нечетные числа неожиданно оказались разного цвета.

Не обижайтесь, но я остаюсь при своем мнении: Вы либо шутник в особо изощренной форме, либо инопланетянин. :D

Эту идею с натуральными числами я уже обдумывал, правда, не про полосатую черно-белую жизнь, а про... грибы. Но на все просто не хватает времени!

Нет, я не шучу. А что касается инопланетянина... Вообразите себе инопланетянина, с виду человека, который станет твердить, что он инопланетянин. Ну и в каком заведении он в конце концов окажется? Свою инопланетность необходимо еще доказать! Поэтому нет, не могу сказать, что я инопланетянин. :)

Разрешите мне завершить разбор пушкинского текста, и Вы увидите, что это очень даже не шутка. А если спешите, итог я выделил коричневым цветом.

geomath писал(а):
Правда, золотая рыбка с золотым хвостом и синяя вода были бы красивее. Надо будет посмотреть, сходится ли такая последовательность...

Вот подходящее разбиение пушкинских стихов на гласные и согласные слова, сошедшееся сильно, но мягко за 6 шагов:

Ничего /// глубокое // сказала /// не ///// и //// воде /
рыбка /// лишь //// море // хвостом /// по ////// в ///// ушла //// плеснула.

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море
.


Все 3 глагола вышли согласными, что хорошо, а существительные - пополам: 2 из них гласные и 2 согласные. Спрашивается, а правильно ли это? Нельзя ли, чтобы и рыбка (подлежащее!) и ее хвост (хвостом, "ом" - аминь!) тоже вышли согласными? И неплохо, если гласные (согласные) слова будут идти друг за другом не так часто и "и" будет гласным словом, а то нехорошо как-то. К сожалению, глаголы и существительные вместе содержат 19 + 20 = 39 букв, что на 3 буквы, вместо допустимой одной, больше числа - 36 - исходных согласных, а значит, сходимость может быть только слабой. Скорее всего требование сильной (пусть даже мягкой) сходимости является слишком обременительным и от него следует отойти или допустить ее с некоторой относительной погрешностью, думается, составляющей 4.5 буквы на каждые 27 гласных или 36 согласных русских букв.

В любом случае потребуем, чтобы слова, одинаковые по составу (с одинаковым числом гласных и одинаковым числом согласных букв), оказывались гласными или согласными одновременно - чтобы простой перестановкой нельзя было превратить их из гласных в согласные и наоборот, а иначе последовательность откажемся считать сходящейся как бы то ни было. Это сразу позволит забраковать множество сомнительных разбиений.

Итак, окончательно, вот требуемое и вряд ли улучшаемое разбиение пушкинского трехстишия, состоящего из 27 гласных и 36 согласных букв, на 6 "гласных" и 8 "согласных" слов, что бы эти кавычки ни означали:

Ничего //// сказала /// лишь //// ушла // плеснула /// глубокое /
не //// воде /// рыбка // хвостом //// по /// и ///// в //// море.

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.


Это разбиение сошлось за 5 шагов слабо (и мягко), поскольку гласные слова содержат суммарно 23 буквы вместо 26-28 букв для сильной сходимости. Зато:

- отношение числа гласных к числу согласных слов составляет в точности 3/4 - как и для исходных букв, а также в среднем для букв русской письменной речи (с оговоркой про Й, Ъ и Ь);
- частота, с которой гласное (согласное) слово идет за гласным (согласным) словом не намного - на 50% (12.5%) отличается от частоты 1/9 (1/3), вероятно среднерусской, с которой гласная (согласная) буква идет за гласной (согласной) буквой;
- слово "и" - гласное, а "в" - согласное;
- слова по и не, чей состав одинаков, - оба гласные, другие же (вода, ушла, море) - все согласные;
- глаголы и существительные - все согласные, здесь их тоже 3 к 4;
- в каждой строке по два гласных слова - вроде стихов получается;
- гласные слова тяготеют к началу строк, а согласные - к концу.

 
 
 [ Сообщений: 7 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group