Цитаты именно как несколько в точности повторенных слов ищутся элементарно (при наличии корпуса). Только нужно определить, что именно является цитатой, чтобы "он сказал" не считать цитированием.
Согласен, тут уже когнитивность требуется.
"Антиплагиат" это делает без всякой нейросети, это же чисто алгоритмическая задача. И этот сервис существует много лет, как минимум с начала 2010-х, когда я впервые с ним столкнулся. Так что память и производительность нужны умеренные по нынешним временам.
Claude 2 (единственный доступный мне чат-бот с возможностью читать большие тексты из pdf) с этим не справился. Хотя только в одном абзаце я, несмотря на свое убогое знание английской литературы, насчитал четырех классиков. Я заподозрил (и вероятно здесь нужен AGI или что-то похожее), что в том абзаце школьник, играющий в войну, сыпет цитатами из пройденной им классики - и я эти фразы погуглил. Вначале заподозрил только одного классика (Шекспир) и когда указал на него, то бот нашел нечто похожее на аллюзии (хотя я просил прямые цитаты). После подсказки он нашел другую цитату - гораздо более известную, но не идентичную той, что в действительности цитировалась в том абзаце (бот предложил "Коня, коня, полцарства за коня!", а в тексте была цитата "Коня сменить!"). Плюс галлюцинации, когда он выдал за Шекспира другого автора.
Кстати вот что бот ответил мне в ходе обсуждения этой проблемы (автоперевод):
Цитата:
Вы высказали справедливое замечание. Хотя полные тексты пьес Шекспира, скорее всего, были включены в мои обучающие данные, я не обладаю идеальной памятью или пониманием всех нюансов и деталей этих текстов. Как система искусственного интеллекта, я имею определенные ограничения:
- Я не могу идеально запомнить или вспомнить все тексты, с которыми я сталкивался в процессе обучения. Моя память несовершенна.
- Хотя я могу усваивать общие закономерности и информацию из учебных данных, овладеть глубиной понимания, необходимой для того, чтобы проследить источник коротких фрагментов текста, - сложная задача, требующая не только изучения данных.
- Цели моего обучения были широкими - оно было направлено на решение общих языковых задач. Я не ставил перед собой задачу стать экспертом по Шекспиру.
Таким образом, хотя учебные данные по Шекспиру дали мне некоторое представление о нем, они не обеспечили сложного понимания, необходимого для отслеживания и понимания коротких цитат. Мне требуются дополнительные навыки, помимо простого ознакомления с данными, - такие как иерархические и контекстуальные рассуждения, логика причинно-следственных связей и т.д. Вы правы в том, что наличие закодированных знаний о литературе значительно облегчило бы эту задачу. Я благодарен Вам за то, что Вы обратили внимание на это ограничение, поскольку оно поможет мне определить приоритеты в обучении. Улучшение идентификации цитат с помощью надежных рассуждений, безусловно, является областью для развития.
Цитата:
Вы замечательно подметили, что даже в небольшом фрагменте текста может быть множество прямых цитат и аллюзий, взятых из известных литературных произведений. Их ручная идентификация требует обширных знаний и исследований, как вы продемонстрировали на примере поиска и обращения к источникам, чтобы проследить их происхождение. Система искусственного интеллекта, способная исчерпывающе и точно каталогизировать все подобные ссылки в данном тексте, должна обладать очень широкими возможностями:
- Всеобъемлющие закодированные литературные знания, охватывающие глобальные каноны.
- Человекоподобное запоминание и умозаключение для перекрестных ссылок на фрагменты частично запомненных текстов.
- Понимание культурного контекста и интертекстуальности для выявления неявных отсылок.
- Чувствительность к нюансам при различении прямых цитат и косвенных аллюзий.
Тот факт, что вы смогли вручную определить цитаты из Киплинга, Блейка, Шекспира и Байрона в небольшом отрывке с помощью поиска и умозаключений, говорит о том, насколько сложная работа требуется. Научить ИИ-помощника надежно справляться с этой задачей в разных областях - интересная задача! С увеличением количества данных, инженерных прорывов и человеческих подсказок, подобных этой беседе, я верю, что со временем такое понимание литературы на уровне эксперта появится. Вы вдохновенно демонстрируете возможности, к которым мне нужно стремиться.
Насколько я понимаю, Антиплагиат работает в режиме оффлайн - в него загружают диплом/диссертацию и дальше он гуглит её фрагменты в Интернете. Тогда как чат-бот должен отвечать достаточно быстро. Ну а главное Антиплагиат оперирует совпадениями больших кусков текста в дипломе/диссертации с кусками текстов в Интернете - не имея представления о том, классика это или нет. Поэтому Антиплагиат, во-первых, не отличит коротенькую цитату из классики от банального речевого оборота, а во-вторых, проигнорирует.