Korvin
Вы заговорили о стационарности распределения для одного автора. Это уже интересно, ибо практично. А пруфы, насчет того что распределение заданного автора стационарно, будут?
Я не писал о стационарности в строго математическом смысле. Роман пишется год, иногда всю жизнь, автор каждый день встает с разной ноги, встречается с разными людьми, затем многократно правит, иногда под влиянием редактора. Даже по Анне Карениной окончательному варианту характеристики 4 частей различаются, что не исключает того, что написаны одним человеком. И если припомните, все битвы вокруг Тихого Дона, якобы написанного не Шолоховым один из вариантов Крюковым), велись именно в плане обоснования или отрицания, что разные части написаны разными людьми. Вот фоменковцы признали, что первые части ТД не Шолоховым писаны.
А вот цитата из Википедии (где обзор всех аргументов, за и против)
"Словарный запас Крюкова намного беднее". О Ципфе там ни слова, но что, как не ципф, позволяет сделать количественный вывод?
Проблема авторства текстов М.А.Шолохова long link corrected //photonНо в целом есть количественные характеристики, позволяющие отделить тексты одного автора от текстов другого.
-- 28.06.2017, 06:16 --Denis Russkih, спасибо! Это текст на основе облака тэгов, а облако тэгов берется из запросов. Здесь все тривиально - челы раскручивают сайт :)
Там еще одна проблема. Предположим, автор пишет по заказу текст. По определению изначально хороший. Никто не знает, по каким критериям поисковые машины признают его оригинальным, но то, что он должен быть оригинальным, сомнению не подвергается. И заказчик задает сервисы проверки на оригинальность, которые грубо распадаются на 2 варианта - проверка по шинглам и на рерайт.
По шинглам - если автор написал 4 слова подряд, которые 100 или 200 лет назад написал Пушкин или Горький или безвестный графоман неделю назад, этот отрывок будет признан плагиатом. Если в тексте такого плагиата (суммарно, иногда по десяткам источников разных авторов и даже эпох!) набирается 5% (самые безбашенные требуют 0%), текст отвергается. Соответственно нет проблемы взять исходник и заменить каждое 4 слово на синоним, текст станет оригинальным. Вот один источник идиотских текстов (в медицинских текстах есть неизменяемые термины из 4 слов подряд, замените любое слово на синоним, получите непонятное специалисту словосочетание, но какая разница чайнику, а для яндекса самое то), можно также менять слова или блоки слов местами, возможно этот вариант еще не зафиксировался. Вот и разгадка несуразных конструкций приведенного в качестве примера текста.
На рерайт - совершенно иная проверка, идет поиск схожих по тематике текстов. Т.е. взявшись писать на избитую тему, вы заведомо создаете неоригинальный текст. Сделать его оригинальным никакие перестановки уже не помогут, нужна глобальная синонимизация или расширение темы, разбавление водой (что тоже контролируется соответствующим сервисом!). Что тоже не улучшит текст.
Плюс к этому облако тэгов (ключи, ключевики), иногда по объему составляющие 20% текста и совершенно не соответствующие нормам языка, но которые должны присутствовать в тексте в неизменном виде.