2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 По следам Британских ученых...
Сообщение28.07.2010, 19:18 
Аватара пользователя


16/07/10
141
Украина/Харьков
Для тех, кто не в курсе, даю ссылку на статью про британских ученых: http://lurkmore.ru/Британские_ученые

Я вот тоже провел некое исследование в стиле этих самых британских ученых :)

Построил функции распределения предложений в книгах по их длине для разных авторов.

Вот что вышло:

Толстой
Изображение

Достоевский
Изображение

Чехов
Изображение

Стругацкие
Изображение

Пелевин
Изображение

Донцова
Изображение

Юлия Шилова
Изображение

Сам скрипт, который можно потестить: http://rotozeev.net/textstat/
Исследования продолжаются :)

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение29.07.2010, 12:13 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Во-первых, нужно разработать критерий сравнения двух графиков. Это можно делать либо непараметрическим способом, сравнивая непосредственно сами графики, либо же аппроксимировать распределение некоторым параметрическим, и затем сравнивать параметры. Можно попробовать, например, гамма-распределение. У него два параметра, поэтому его будет удобно изобразить на плоскости в виде точки, и затем посмотреть, какие получатся кластеры из таких точек для разных авторов. Интересно, насколько они будут компактны, а также отделены друг от друга.

Интересно посмотреть, получится ли по данному критерию достаточно уверенно определить авторство произведения. (Разумеется, чтобы результаты были честными, нужно обучать данную систему на одних произведениях, а тестировать - на других). Если получится определять авторство, тогда еще интересно посмотреть, как зависит точность от длины предложенного фрагмента текста. Насколько большой кусок нужно взять, чтобы уверенно определить.

Интересно, насколько устойчиво данное распределение для разных фрагментов одного произведения.

Интересно, меняется ли распределение в зависимости от времени написания (т.е. сравнить ранние и поздние произведения одного автора).

Кроме того, современных авторов массовых произведений, вроде Донцовой, часто обвиняют в использовании труда "литературных негров". Можно было бы попробовать это проверить, используя данный критерий.

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение29.07.2010, 12:45 
Аватара пользователя


16/07/10
141
Украина/Харьков
PAV в сообщении #341430 писал(а):
Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Во-первых, нужно разработать критерий сравнения двух графиков. Это можно делать либо непараметрическим способом, сравнивая непосредственно сами графики, либо же аппроксимировать распределение некоторым параметрическим, и затем сравнивать параметры. Можно попробовать, например, гамма-распределение. У него два параметра, поэтому его будет удобно изобразить на плоскости в виде точки, и затем посмотреть, какие получатся кластеры из таких точек для разных авторов. Интересно, насколько они будут компактны, а также отделены друг от друга.

Интересно посмотреть, получится ли по данному критерию достаточно уверенно определить авторство произведения. (Разумеется, чтобы результаты были честными, нужно обучать данную систему на одних произведениях, а тестировать - на других). Если получится определять авторство, тогда еще интересно посмотреть, как зависит точность от длины предложенного фрагмента текста. Насколько большой кусок нужно взять, чтобы уверенно определить.

Интересно, насколько устойчиво данное распределение для разных фрагментов одного произведения.

Интересно, меняется ли распределение в зависимости от времени написания (т.е. сравнить ранние и поздние произведения одного автора).

Кроме того, современных авторов массовых произведений, вроде Донцовой, часто обвиняют в использовании труда "литературных негров". Можно было бы попробовать это проверить, используя данный критерий.


Практически все эти вопросы у меня тоже возникают :)
От произведения к произведению одного автора распределение меняется. Но ключевой момент - это гладкость функции после основного максимума. У Шиловой - практически нет рывков, монотонное убывание, у Чехова - самое "растянутое" распределение со множеством локальных максимумов. Вдруг, эти вот локальные максимумы - это и есть проявление авторского стиля? Если взять кучу текста с форумов не будет ли распределение уныло гладким?

Вообще (по секрету) мне интересно, какое распределение будет у автоматически сгенерированного текста (см. дорвеи). Насколько оно будет отличаться от распределения живого человека? Может это является одним из критериев, по которому Google и Яндекс определяют и банят дорвеи?

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение29.07.2010, 12:46 
Заслуженный участник


08/04/08
8556
Могу сказать, что график сильно зависит от типа произведения. Например, Зиновьев. У него график "Зияющие высот" имеет максимум примерно в районе 30 и кривая быстро изменяется, график "На пути к сверхобществу" более плавный и имеет 2 максимума в районе 60 и 80, а диссер "Метод восхождения" имеет нерегулярный график с максимумом в районе 60.

(Оффтоп)

не знаю, как грузить картинки


-- Чт июл 29, 2010 13:51:50 --

"Глобальный человейник" - почти гладкое, быстро изменяющееся распределение с максимумом в районе 30.
Кроме того, там в одном произведении можно выделить несколько типов главок, которые написаны разным языком и, скорее всего, имеют свои распределения. Хотя я у других писателей такого не видел (м.б. только если Пелевин...)

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение29.07.2010, 13:31 
Аватара пользователя


16/07/10
141
Украина/Харьков
Конечно все сильно зависит от типа произведения. Хотя бы из-за того, что в художественной литературе есть диалоги с короткими фразами. Научная литература будет отличаться.

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение30.07.2010, 08:58 
Аватара пользователя


15/11/06
2689
Москва Первомайская
PAV в сообщении #341430 писал(а):
Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Пока что автор просто решил программистскую задачку студенческого уровня. Очень хотелось бы ошибиться, но в данном случае автор, похоже, на большее и не способен. :-(

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение30.07.2010, 18:18 
Аватара пользователя


22/03/06
989
Интересно посмотреть результаты Вашего метода на произведениях Шолохова, в частности сравнив Тихий Дон с другими вещами.

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение31.07.2010, 02:20 
Аватара пользователя


16/07/10
141
Украина/Харьков
geomath в сообщении #341572 писал(а):
PAV в сообщении #341430 писал(а):
Это любопытно, хотя на исследование пока что не тянет. Пока что сделана только некоторая техническая работа. Однако задача определения авторства вполне содержательна, так что здесь есть над чем поработать.

Пока что автор просто решил программистскую задачку студенческого уровня. Очень хотелось бы ошибиться, но в данном случае автор, похоже, на большее и не способен. :-(


Так я ж и не претендую на исследование уровня Nature или хотя бы arxiv.org :)
Почитайте про "Британских ученых" по ссылке в первом посте (почему то ссылки с русскими буквами плохо тут получаются). У меня еще есть "исследование" в котором моделируется общество мужчин и женщин. У мужчин есть параметр - успешность, который задается в обществе распределением типа Пуассона. У женщин есть параметр "темперамент", который задается распределением типа Гиббса, и который ответственен за возможность выбора женщиной мужчины с успешностью меньше средней (желание выбора моделируется ступенькой типа Ферми, температура=темперамент - размывает ступеньку и стервозную четкость выбора). И методом Монте Карло... ну да ладно :)

Вот, кстати, сделал еще один анализатор: строит распределение по длине слов в тексте. Считает среднюю длину и дисперсию: http://rotozeev.net/textstat2/ - один текст
http://rotozeev.net/textstat3/ - два текста на одном графике.

Вот анализ 1 Чехова(рассказы) и 2 Бунина (Жизнь Арсеньева):
Изображение

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение31.07.2010, 07:11 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Насчет средней длины предложения. Если взять текст, состоящий просто из повторенного 100 раз предложения

В 1933 г. в г. N родился г. X, т.е. я.

, то ваш скрипт выдаст ерунду.

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение31.07.2010, 10:16 
Аватара пользователя


16/07/10
141
Украина/Харьков
geomath в сообщении #341735 писал(а):
Насчет средней длины предложения. Если взять текст, состоящий просто из повторенного 100 раз предложения

В 1933 г. в г. N родился г. X, т.е. я.

, то ваш скрипт выдаст ерунду.


Это конечно безобразие. Но и предложение - безобразное. Точек много. Это еще проверять на размер буквы после точки надо, что б понять закончилось ли предложение, да и то - будет там имя собственное, и что делать?
Нет. Этот пример неестественный :)

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение31.07.2010, 10:27 
Заслуженный участник
Аватара пользователя


13/08/08
14463
Я решил пойти другим путём, нежели geomath, и вставил в окошко последнюю главу "Улисса" :-)

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение01.08.2010, 14:15 
Аватара пользователя


15/11/06
2689
Москва Первомайская
У меня есть гипотеза. Не хотите ее проверить?

Я заметил, что нынешняя русская азбука (33 буквы) состоит на 1/3 из букв типа А и на 2/3 из букв типа Б, а нынешний русский текст в среднем состоит на 3/7 из букв типа А и на 4/7 из букв типа Б. Буквы типа А - это гласные (10 штук) плюс Й, а буквы типа Б - это согласные (20 штук) плюс Ъ и Ь. Для краткости первые просто назовем гласными, а вторые - согласными. Обозначим:

Рг - доля гласных среди букв, ныне 3/7,
Рс - доля согласных среди букв, ныне 4/7,
Ргг - доля предшествующих гласным среди гласных (вероятность гласной идти за гласной),
Ргс - доля предшествующих согласным среди гласных (вероятность согласной идти за гласной),
Рсг - доля предшествующих гласным среди согласных (вероятность гласной идти за согласной),
Рсс - доля предшествующих согласным среди согласных (вероятность согласной идти за согласной).

Нетрудно убедиться, что Р. = Р.Р.. (т.е. Р. - собственная вектор-строка матрицы Р..).

Моя гипотеза состоит в том, что тогда в среднем верно одно из двух:

или Ргг = 1/5, Ргс = 4/5, Рсг = 3/5, Рсс = 2/5,
или Ргг = 1/9, Ргс = 8/9, Рсг = 2/3, Рсс = 1/3.

Есть у меня и соображения о погрешности, с какой это должно быть верно.

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение01.08.2010, 14:36 
Заслуженный участник
Аватара пользователя


13/08/08
14463
Существует два подхода к анализу парных и тройных сочетаний в тексте. В первом рассматриваются ещё и случаи, когда буква начинает или заканчивает слово.
Вовторомизтекставыкидываютсявсенебуквенныесимволы
Это, кстати, не лишено логики. Ибо произнесите фразу "Кот тормоз, Зин, нахал лентяй и идиот."

БААБАБАБАБАББАБББАБББАБАББАББАБАББАББАБАБАБАБ
АБАБАБАБББАБАБАББАБАБАБАББАБАБАБАБББАБАБ

"Мой дядя самых... ... ... не мог".

 Профиль  
                  
 
 Re: По следам Британских ученых...
Сообщение01.08.2010, 14:52 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Я имею в виду второй случай (одни буквы, без пробелов и знаков препинания; все равно, большие или маленькие), причем самая последняя буква пусть предшествует самой первой, т.е. рассматривается одно длиннющее закольцованное слово.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 14 ] 

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group