Так как задача прикладная, то переношу из "Помогите решить" в корневой раздел
Добавлено спустя 3 минуты 34 секунды:
Можно попробовать использовать таблицы 2x2. Попробуйте так: весь текст разбить на две части. В первой части и во второй независимо разбить все слова на две примерно равные группы: часто ошибочные и редко ошибочные. Если гипотеза верна, то должна наблюдаться хорошая корреляция: слово, попавшее в группу "ошибочных" в одной части текста более вероятно попадет в группу "ошибочных" и в другой части текста.
Добавлено спустя 8 минут 48 секунд:
А можно также использовать коэффициент ранговой корреляции Спирмена (см. об этом в
учебных материалах для психологов здесь, задания 7 и 8). В каждой из двух частей текста отранжировать слова по степени ошибочности написания и сравнить полученные последовательности рангов. Весь вопрос в том, насколько объективно это удастся сделать. Лучше всего, думаю, отбросить простые слова, которые во всем тексте написаны правильно, и работать только с теми, где встречаются ошибки.