Классика жанра состоит в создании плагиаторного репозитория, которая содержит пары документов с указанием, есть ли заимствование одного документа из другого или нет.
Далее дело техники. Множество из репозитория делится на обучающее и проверочное. На обучающем настраивают алгоритм / модель, а на проверочном определяют качество работы (какой-нибудь AUC или что-то в этом духе).
В обработке тестов сейчас имеет место видимый прогресс. Например, с помощью Wiki, толковых словарей, и т.д. программы могут проходить тесты или даже отвечать на вопросы. Например, в недавнем конкурсе KAGGLE победивший алгоритм для "ЕГЭ" восьмого грейда (США), судя по доске лидеров, дал около 60% правильных ответов (при случайном ответах было бы 25%):
https://www.kaggle.com/c/the-allen-ai-science-challengeТам же море ПОЛЕЗНЫХ ссылок, весьма интересных - можно оценить, до чего дошел прогресс:
https://www.kaggle.com/c/the-allen-ai-s ... repositoryДругой пример, это выигрыш IBM Watson в игре "Jeopardy!". Легко находится с помощью поиска.
Так что не нужно представлять себе, что антиплагиат как нечто тупое и примитивное. Если, конечно, его делали всерьез. Антипримеры, которые приводились выше, не представляют собой проблемы.
* В "артерии и аорты" при поиске "и", скорее всего, будет отброшено как "шумовое слово" (stopword). Поэтому длина здесь не 3 слова, а 2. Также могут обнаруживаться "стандартные обороты", словосочетания и т.п., которые преувеличиваются меру плагиата.
* Если программа обнаруживает в качестве источников плагиата медицинские книги - то тоже нет проблем, если в дипломной работе указаны ссылки на эти книги. А если не указаны - это и есть плагиат.
...
Нормальная практика применения мне видится следующей. Антиплагиатор находит заимствования и ставит им индексы (типа "вероятность" плагиата). В процессе приемки диплома делается выборочная "ручная" проверка на предмет плагиата с несколькими работами с наивысшим индексом. Решение в любом случае должно остаться за человеком. Можно считать, что антиплагиатор - это просто система поиска.
P.S. что касается форматов - если нет специальных настроек документов, то конвертация word/pdf вроде не вызывает проблем... по крайне мере, для антиплагиатора искажения конвертации не столь важны... Что касается Word, то бесплатный продукт "Open Office" более/менее создает/читает данные документы.