По следам Британских ученых...

rotozeev · 16/07/10 141 Украина/Харьков

Для тех, кто не в курсе, даю ссылку на статью про британских ученых: http://lurkmore.ru/Британские_ученые

Я вот тоже провел некое исследование в стиле этих самых британских ученых :)

Построил функции распределения предложений в книгах по их длине для разных авторов.

Вот что вышло:

Толстой

Достоевский

Чехов

Стругацкие

Пелевин

Донцова

Юлия Шилова

Сам скрипт, который можно потестить: http://rotozeev.net/textstat/
Исследования продолжаются :)

PAV · 29/07/05 8248 Москва

Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Во-первых, нужно разработать критерий сравнения двух графиков. Это можно делать либо непараметрическим способом, сравнивая непосредственно сами графики, либо же аппроксимировать распределение некоторым параметрическим, и затем сравнивать параметры. Можно попробовать, например, гамма-распределение. У него два параметра, поэтому его будет удобно изобразить на плоскости в виде точки, и затем посмотреть, какие получатся кластеры из таких точек для разных авторов. Интересно, насколько они будут компактны, а также отделены друг от друга.

Интересно посмотреть, получится ли по данному критерию достаточно уверенно определить авторство произведения. (Разумеется, чтобы результаты были честными, нужно обучать данную систему на одних произведениях, а тестировать - на других). Если получится определять авторство, тогда еще интересно посмотреть, как зависит точность от длины предложенного фрагмента текста. Насколько большой кусок нужно взять, чтобы уверенно определить.

Интересно, насколько устойчиво данное распределение для разных фрагментов одного произведения.

Интересно, меняется ли распределение в зависимости от времени написания (т.е. сравнить ранние и поздние произведения одного автора).

Кроме того, современных авторов массовых произведений, вроде Донцовой, часто обвиняют в использовании труда "литературных негров". Можно было бы попробовать это проверить, используя данный критерий.

rotozeev · 16/07/10 141 Украина/Харьков

PAV в сообщении #341430 писал(а):

Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Во-первых, нужно разработать критерий сравнения двух графиков. Это можно делать либо непараметрическим способом, сравнивая непосредственно сами графики, либо же аппроксимировать распределение некоторым параметрическим, и затем сравнивать параметры. Можно попробовать, например, гамма-распределение. У него два параметра, поэтому его будет удобно изобразить на плоскости в виде точки, и затем посмотреть, какие получатся кластеры из таких точек для разных авторов. Интересно, насколько они будут компактны, а также отделены друг от друга.

Интересно посмотреть, получится ли по данному критерию достаточно уверенно определить авторство произведения. (Разумеется, чтобы результаты были честными, нужно обучать данную систему на одних произведениях, а тестировать - на других). Если получится определять авторство, тогда еще интересно посмотреть, как зависит точность от длины предложенного фрагмента текста. Насколько большой кусок нужно взять, чтобы уверенно определить.

Интересно, насколько устойчиво данное распределение для разных фрагментов одного произведения.

Интересно, меняется ли распределение в зависимости от времени написания (т.е. сравнить ранние и поздние произведения одного автора).

Кроме того, современных авторов массовых произведений, вроде Донцовой, часто обвиняют в использовании труда "литературных негров". Можно было бы попробовать это проверить, используя данный критерий.

Практически все эти вопросы у меня тоже возникают :)
От произведения к произведению одного автора распределение меняется. Но ключевой момент - это гладкость функции после основного максимума. У Шиловой - практически нет рывков, монотонное убывание, у Чехова - самое "растянутое" распределение со множеством локальных максимумов. Вдруг, эти вот локальные максимумы - это и есть проявление авторского стиля? Если взять кучу текста с форумов не будет ли распределение уныло гладким?

Вообще (по секрету) мне интересно, какое распределение будет у автоматически сгенерированного текста (см. дорвеи). Насколько оно будет отличаться от распределения живого человека? Может это является одним из критериев, по которому Google и Яндекс определяют и банят дорвеи?

Sonic86 · 08/04/08 8564

Могу сказать, что график сильно зависит от типа произведения. Например, Зиновьев. У него график "Зияющие высот" имеет максимум примерно в районе 30 и кривая быстро изменяется, график "На пути к сверхобществу" более плавный и имеет 2 максимума в районе 60 и 80, а диссер "Метод восхождения" имеет нерегулярный график с максимумом в районе 60.

(Оффтоп)

не знаю, как грузить картинки

-- Чт июл 29, 2010 13:51:50 --

"Глобальный человейник" - почти гладкое, быстро изменяющееся распределение с максимумом в районе 30.
Кроме того, там в одном произведении можно выделить несколько типов главок, которые написаны разным языком и, скорее всего, имеют свои распределения. Хотя я у других писателей такого не видел (м.б. только если Пелевин...)

rotozeev · 16/07/10 141 Украина/Харьков

Конечно все сильно зависит от типа произведения. Хотя бы из-за того, что в художественной литературе есть диалоги с короткими фразами. Научная литература будет отличаться.

geomath · 15/11/06 2689 Москва Первомайская

PAV в сообщении #341430 писал(а):

Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Пока что автор просто решил программистскую задачку студенческого уровня. Очень хотелось бы ошибиться, но в данном случае автор, похоже, на большее и не способен. :-(

Mopnex · 22/03/06 994

Интересно посмотреть результаты Вашего метода на произведениях Шолохова, в частности сравнив Тихий Дон с другими вещами.

rotozeev · 16/07/10 141 Украина/Харьков

geomath в сообщении #341572 писал(а):

PAV в сообщении #341430 писал(а):

Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Пока что автор просто решил программистскую задачку студенческого уровня. Очень хотелось бы ошибиться, но в данном случае автор, похоже, на большее и не способен. :-(

Так я ж и не претендую на исследование уровня Nature или хотя бы arxiv.org :)
Почитайте про "Британских ученых" по ссылке в первом посте (почему то ссылки с русскими буквами плохо тут получаются). У меня еще есть "исследование" в котором моделируется общество мужчин и женщин. У мужчин есть параметр - успешность, который задается в обществе распределением типа Пуассона. У женщин есть параметр "темперамент", который задается распределением типа Гиббса, и который ответственен за возможность выбора женщиной мужчины с успешностью меньше средней (желание выбора моделируется ступенькой типа Ферми, температура=темперамент - размывает ступеньку и стервозную четкость выбора). И методом Монте Карло... ну да ладно :)

Вот, кстати, сделал еще один анализатор: строит распределение по длине слов в тексте. Считает среднюю длину и дисперсию: http://rotozeev.net/textstat2/ - один текст
http://rotozeev.net/textstat3/ - два текста на одном графике.

Вот анализ 1 Чехова(рассказы) и 2 Бунина (Жизнь Арсеньева):

geomath · 15/11/06 2689 Москва Первомайская

Насчет средней длины предложения. Если взять текст, состоящий просто из повторенного 100 раз предложения

В 1933 г. в г. N родился г. X, т.е. я.

, то ваш скрипт выдаст ерунду.

rotozeev · 16/07/10 141 Украина/Харьков

geomath в сообщении #341735 писал(а):

Насчет средней длины предложения. Если взять текст, состоящий просто из повторенного 100 раз предложения

В 1933 г. в г. N родился г. X, т.е. я.

, то ваш скрипт выдаст ерунду.

Это конечно безобразие. Но и предложение - безобразное. Точек много. Это еще проверять на размер буквы после точки надо, что б понять закончилось ли предложение, да и то - будет там имя собственное, и что делать?
Нет. Этот пример неестественный :)

gris · 13/08/08 14496

Я решил пойти другим путём, нежели geomath, и вставил в окошко последнюю главу "Улисса" :-)

geomath · 15/11/06 2689 Москва Первомайская

У меня есть гипотеза. Не хотите ее проверить?

Я заметил, что нынешняя русская азбука (33 буквы) состоит на 1/3 из букв типа А и на 2/3 из букв типа Б, а нынешний русский текст в среднем состоит на 3/7 из букв типа А и на 4/7 из букв типа Б. Буквы типа А - это гласные (10 штук) плюс Й, а буквы типа Б - это согласные (20 штук) плюс Ъ и Ь. Для краткости первые просто назовем гласными, а вторые - согласными. Обозначим:

Рг - доля гласных среди букв, ныне 3/7,
Рс - доля согласных среди букв, ныне 4/7,
Ргг - доля предшествующих гласным среди гласных (вероятность гласной идти за гласной),
Ргс - доля предшествующих согласным среди гласных (вероятность согласной идти за гласной),
Рсг - доля предшествующих гласным среди согласных (вероятность гласной идти за согласной),
Рсс - доля предшествующих согласным среди согласных (вероятность согласной идти за согласной).

Нетрудно убедиться, что Р. = Р.Р.. (т.е. Р. - собственная вектор-строка матрицы Р..).

Моя гипотеза состоит в том, что тогда в среднем верно одно из двух:

или Ргг = 1/5, Ргс = 4/5, Рсг = 3/5, Рсс = 2/5,
или Ргг = 1/9, Ргс = 8/9, Рсг = 2/3, Рсс = 1/3.

Есть у меня и соображения о погрешности, с какой это должно быть верно.

gris · 13/08/08 14496

Существует два подхода к анализу парных и тройных сочетаний в тексте. В первом рассматриваются ещё и случаи, когда буква начинает или заканчивает слово.
Вовторомизтекставыкидываютсявсенебуквенныесимволы
Это, кстати, не лишено логики. Ибо произнесите фразу "Кот тормоз, Зин, нахал лентяй и идиот."

БААБАБАБАБАББАБББАБББАБАББАББАБАББАББАБАБАБАБ
АБАБАБАБББАБАБАББАБАБАБАББАБАБАБАБББАБАБ

"Мой дядя самых... ... ... не мог".

geomath · 15/11/06 2689 Москва Первомайская

Я имею в виду второй случай (одни буквы, без пробелов и знаков препинания; все равно, большие или маленькие), причем самая последняя буква пусть предшествует самой первой, т.е. рассматривается одно длиннющее закольцованное слово.

Научный форум dxdy

По следам Британских ученых...

Кто сейчас на конференции