2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Текстовый анализ а-ля судоку-какуро
Сообщение15.03.2007, 16:17 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Рассмотрим текст, состоящий из гласных и согласных букв и разбитый на слова. Разделим класс этих слов (в беспорядке) на два подкласса, тоже "гласный" и "согласный", таким образом, чтобы суммарное число букв (одинаковых и разных) всех слов гласного подкласса было в точности равно общему числу гласных букв исходного (охватывающего) класса, а суммарное число букв всех слов согласного подкласса равнялось бы в точности общему числу согласных букв этого же (охватывающего) класса. То же самое проделаем с каждым подклассом и получим подклассы подклассов, снова "гласные" и "согласные". И так далее. Эту последовательность шагов назовем сходящейся (слабо), если в конце концов каждый подкласс окажется состоящим из отдельного, единичного слова, опять же "гласного" или "согласного". И эту последовательность назовем сходящейся сильно, если суммарное число букв всех конечных гласных слов будет в точности равно общему числу гласных букв начального текста. Заметим, что потенциально неоднозначный выбор гласных и согласных слов ведет к сходимости при одном их выборе и сильной сходимости при другом.

Рассмотрим игрушечный пример из 6 гласных, 9 согласных и 6 слов (слогов):
Ма ша мы лась мы лом.

На первом шаге разделим слова так:
Ма ша мы лом / мы лась.

На втором шаге - так:
Ма ша // мы лом / мы // лась.

И на третьем - так:
Ма /// ша // мы /// лом / мы // лась.

Все, последовательность сошлась. Гласные слова здесь подчеркнуты; два первых слова набраны курсивом: пока не вполне ясно, какое из них гласное, и для определенности гласным считается первое слово. При этом суммарное число букв всех гласных слов равно 6 - числу гласных букв начального текста, а значит, наша последовательность сошлась сильно.

Тут возникает ряд вопросов. Каковы условия существования и единственности сходящейся последовательности, необходимые и достаточные условия сходимости? Не следует ли смягчить определение сходимости так, чтобы сходящихся последовательностей было побольше, скажем, заменить всюду слова "в точности" менее ограничительным условием "с точностью до буквы" (т.е. плюс/минус одна буква)?

Рассмотрим теперь реальный текст, пушкинский, можно считать образцовый:

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.

Как я ни пытался, найти здесь сходящуюся последовательность мне не удалось. Тем не менее мягко сходящуюся (+/- буква) последовательность, и не одну, выделить удается. Попробуйте.

Зачем все это нужно? Коль скоро согласные важнее гласных, то появляется возможность разделить текст на слова как бы важные и не столь важные. Возможно также, что наличие сходящихся (мягко) последовательностей говорит о высоком качестве текста.

 Профиль  
                  
 
 
Сообщение15.03.2007, 18:54 
Заблокирован
Аватара пользователя


21/04/06

4930
Цитата:
Поскольку согласные важнее гласных, то появляется возможность разделить текст на слова как бы важные и не важные.

Есть «Языки», в которых гласные отсутствуют, вааще их нет. Исходя из Вашей логики, выходит, что «Языки» без гласных имеет наивысшее качество. Интэресно… Это официальная ( научная) точка зрения?

Шимпанзе

 Профиль  
                  
 
 Re: Текстовый анализ а-ля судоку-какуро
Сообщение15.03.2007, 20:16 
Заслуженный участник
Аватара пользователя


23/07/05
18006
Москва
geomath писал(а):
Возможно также, что существование сходящихся последовательностей говорит о высоком качестве текста.


Да, Пушкину до "Маша мылом мылась" расти и расти...

 Профиль  
                  
 
 Re: Текстовый анализ а-ля судоку-какуро
Сообщение16.03.2007, 04:31 
Заслуженный участник


15/05/05
3445
USA
geomath писал(а):
Поскольку согласные важнее гласных...
Это далеко не аксиома, все зависит от языка. Русский более консонантен, чем английский. В семитских согласные еще важнее. А вот в полинезийских возможны слова вообще без согласных.
Впрочем не удивлюсь, если под гласными Вы понимаете что-нибудь особенное.

Шимпанзе писал(а):
Есть «Языки», в которых гласные отсутствуют, вааще их нет.
Если под «Языком» Вы понимаете живой человеческий язык и не путаете язык и письменность, то приведите, пожалуйста пример.

geomath писал(а):
Рассмотрим теперь реальный пример, пушкинский, в некотором смысле эталонный...
...
Как я ни пытался, найти здесь сходящуюся последовательность мне не удалось...
...
Возможно также, что существование сходящихся последовательностей говорит о высоком качестве текста.
Какой интересный силлогизм! Присоединяюсь к Someone.

 Профиль  
                  
 
 
Сообщение16.03.2007, 17:55 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Yuri Gendelman писал(а):
Русский более консонантен, чем английский. В семитских согласные еще важнее. А вот в полинезийских возможны слова вообще без согласных. Впрочем не удивлюсь, если под гласными Вы понимаете что-нибудь особенное.

В данном случае гласные русские буквы я понимаю как обычно, разве что добавляю к ним Й. А в общем случае это произвольное подмножество букв. Соответствующими будут и выделенные "гласные" слова. Насколько они важны - пока не главное. Главное - мы перенесем дихотомию "гласные - согласные" с букв на слова, правда, контекстно зависимо. А "гласность" как явление рассмотрим отдельно.

Yuri Gendelman писал(а):
Какой интересный силлогизм! Присоединяюсь к Someone.

Я имел в виду сходимость, если нужно, смягченную. Я тут подредактировал самый первый пост - перечитайте его, пожалуйста. А сейчас я собираюсь разобрать пушкинские строчки подробно - с пользой, надеюсь.

Добавлено спустя 1 час 44 минуты 41 секунду:

Этот пушкинский текст очень интересный, рассмотрим его внимательно.

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.

На первом шаге разобьем его на гласные и согласные классы так (чтобы подчеркнутых и гласных букв было равное число +/- одна буква):

Ничего не хвостом по и в глубокое /
сказала рыбка лишь воде плеснула ушла море.

На втором шаге - так:

Ничего глубокое // не хвостом по и в /
сказала воде море // рыбка лишь плеснула ушла.

На третьем - так:

Ничего /// глубокое // хвостом /// не по и в /
сказала /// воде море // рыбка ушла /// лишь плеснула.

А на четвертом и, заодно, пятом - так:

Ничего /// глубокое // хвостом /// не ///// и //// по ///// в /
сказала /// воде //// море // рыбка //// ушла /// лишь //// плеснула.

Все, конец, последовательность сошлась - сильно, но мягко. Мягко потому, что суммарное число букв - 28 - однословных гласных классов хоть на одну букву, но все же не равно общему числу - 27 - гласных букв начального текста (к тому же были и промежуточные погрешности в одну букву).

Слова ничего, лишь (глубокое, хвостом, плеснула) - гласные (согласные) однозначно в силу разбиения. Слово сказала - гласное ради обеспечения сильной сходимости; слово ушла (рыбка) - гласное (согласное) для того же. Слово по (не) - гласное (согласное) из вероятностных, парных соображений, а слово и (в) - автоматически. Слово воде (море) - гласное (согласное) условно.

В целом вид получается такой:

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.

Или красочно такой:

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.


Как видим, гласные слова тяготеют к началу, а согласные - к концу стихов. Вот вам и первый вывод (априори очевидный?).

Правда, золотая рыбка с золотым хвостом и синяя вода были бы красивее. Надо будет посмотреть, сходится ли такая последовательность...

 Профиль  
                  
 
 
Сообщение17.03.2007, 19:03 
Заслуженный участник


15/05/05
3445
USA
Уважаемый geomath!
Позвольте дружескую пародию.

Давайте считать все натуральные числа вида (2*n-1) черными, а числа вида (2*n) - белыми (в обоих случаях n=1,2,...). Теперь рассмотрим натуральный ряд как цветную полосу. Удивительно, но она очень напоминает зебру! То есть человеческая жизнь каким-то образом связана с натуральным рядом (помните песенку: "вроде зебры жизнь, вроде зебры"). Что Вы об этом думаете? Кстати, обратите внимание, что четные и нечетные числа неожиданно оказались разного цвета.

Не обижайтесь, но я остаюсь при своем мнении: Вы либо шутник в особо изощренной форме, либо инопланетянин. :D

 Профиль  
                  
 
 
Сообщение19.03.2007, 18:44 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Yuri Gendelman писал(а):
Уважаемый geomath!
Позвольте дружескую пародию.

Давайте считать все натуральные числа вида (2*n-1) черными, а числа вида (2*n) - белыми (в обоих случаях n=1,2,...). Теперь рассмотрим натуральный ряд как цветную полосу. Удивительно, но она очень напоминает зебру! То есть человеческая жизнь каким-то образом связана с натуральным рядом (помните песенку: "вроде зебры жизнь, вроде зебры"). Что Вы об этом думаете? Кстати, обратите внимание, что четные и нечетные числа неожиданно оказались разного цвета.

Не обижайтесь, но я остаюсь при своем мнении: Вы либо шутник в особо изощренной форме, либо инопланетянин. :D

Эту идею с натуральными числами я уже обдумывал, правда, не про полосатую черно-белую жизнь, а про... грибы. Но на все просто не хватает времени!

Нет, я не шучу. А что касается инопланетянина... Вообразите себе инопланетянина, с виду человека, который станет твердить, что он инопланетянин. Ну и в каком заведении он в конце концов окажется? Свою инопланетность необходимо еще доказать! Поэтому нет, не могу сказать, что я инопланетянин. :)

Разрешите мне завершить разбор пушкинского текста, и Вы увидите, что это очень даже не шутка. А если спешите, итог я выделил коричневым цветом.

geomath писал(а):
Правда, золотая рыбка с золотым хвостом и синяя вода были бы красивее. Надо будет посмотреть, сходится ли такая последовательность...

Вот подходящее разбиение пушкинских стихов на гласные и согласные слова, сошедшееся сильно, но мягко за 6 шагов:

Ничего /// глубокое // сказала /// не ///// и //// воде /
рыбка /// лишь //// море // хвостом /// по ////// в ///// ушла //// плеснула.

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море
.


Все 3 глагола вышли согласными, что хорошо, а существительные - пополам: 2 из них гласные и 2 согласные. Спрашивается, а правильно ли это? Нельзя ли, чтобы и рыбка (подлежащее!) и ее хвост (хвостом, "ом" - аминь!) тоже вышли согласными? И неплохо, если гласные (согласные) слова будут идти друг за другом не так часто и "и" будет гласным словом, а то нехорошо как-то. К сожалению, глаголы и существительные вместе содержат 19 + 20 = 39 букв, что на 3 буквы, вместо допустимой одной, больше числа - 36 - исходных согласных, а значит, сходимость может быть только слабой. Скорее всего требование сильной (пусть даже мягкой) сходимости является слишком обременительным и от него следует отойти или допустить ее с некоторой относительной погрешностью, думается, составляющей 4.5 буквы на каждые 27 гласных или 36 согласных русских букв.

В любом случае потребуем, чтобы слова, одинаковые по составу (с одинаковым числом гласных и одинаковым числом согласных букв), оказывались гласными или согласными одновременно - чтобы простой перестановкой нельзя было превратить их из гласных в согласные и наоборот, а иначе последовательность откажемся считать сходящейся как бы то ни было. Это сразу позволит забраковать множество сомнительных разбиений.

Итак, окончательно, вот требуемое и вряд ли улучшаемое разбиение пушкинского трехстишия, состоящего из 27 гласных и 36 согласных букв, на 6 "гласных" и 8 "согласных" слов, что бы эти кавычки ни означали:

Ничего //// сказала /// лишь //// ушла // плеснула /// глубокое /
не //// воде /// рыбка // хвостом //// по /// и ///// в //// море.

Ничего не сказала рыбка,
Лишь хвостом по воде плеснула
И ушла в глубокое море.


Это разбиение сошлось за 5 шагов слабо (и мягко), поскольку гласные слова содержат суммарно 23 буквы вместо 26-28 букв для сильной сходимости. Зато:

- отношение числа гласных к числу согласных слов составляет в точности 3/4 - как и для исходных букв, а также в среднем для букв русской письменной речи (с оговоркой про Й, Ъ и Ь);
- частота, с которой гласное (согласное) слово идет за гласным (согласным) словом не намного - на 50% (12.5%) отличается от частоты 1/9 (1/3), вероятно среднерусской, с которой гласная (согласная) буква идет за гласной (согласной) буквой;
- слово "и" - гласное, а "в" - согласное;
- слова по и не, чей состав одинаков, - оба гласные, другие же (вода, ушла, море) - все согласные;
- глаголы и существительные - все согласные, здесь их тоже 3 к 4;
- в каждой строке по два гласных слова - вроде стихов получается;
- гласные слова тяготеют к началу строк, а согласные - к концу.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group