Степень надёжности зависит о от текста, очевидно.
-- 26.11.2012, 20:39 --Недавно одна из лекций из цикла по компьютерной лингвистике, который проходит в Политехе, была посвящена этому вопросу:
Цитата:
6 ноября, 19:00
Сергей Шаров
Компьютерный анализ жанра и характеристик автора текста
Определение тематики текста является достаточно простой задачей (так, например, Яндекс.Новости определяет сюжеты новостей по совпадению ключевых слов). В то же время жанр текста, характеристики его автора (например, пол, возраст) не зависят прямо от ключевых слов, поскольку текст в одном и том же жанре или одного и того же автора может быть написан на разные темы. В лекции рассматриваются подходы к автоматическому определению этих характеристик.
Сергей Шаров – канд. физ.-мат. н., профессор кафедры переводоведения Университета Лидса и доцент кафедры компьютерной лингвистики Института лингвистики РГГУ.
Найдите видеозапись лекции в сети. Впрочем, я не уверен, даётся ли в ней прямой ответ...