Перспективы инженерии знаний и онтологий в частности

Rasool · 20/09/09 2144 Уфа

ОПК и «Т-Платформы» вместе с 30 вузами России занялись созданием искусственного интеллекта.

Цитата:

На конференции «ИТ на службе оборонно-промышленного комплекса», которая проходит в эти дни в городе Иннополисе, Объединенная приборостроительная корпорация объявила о старте масштабного исследовательского проекта в области искусственного интеллекта и семантического анализа данных с участием более 30 российских компаний, образовательных и научных организаций.
Участники проекта получили бесплатный доступ к уникальной разработке – недавно анонсированному лингвистическому процессору Ontosminer. С его помощью исследователи будут развивать технологии интеллектуального анализа текстов в самых различных сферах – от мониторинга СМИ до обработки научных данных и бизнес-аналитики.

Наряду с корпорацией организатором проекта выступает российская компания-разработчик интеллектуального программного обеспечения «Авикомп Сервисез». Проект реализуется при поддержке компании «Т-Платформы», которая предоставила для размещения лингвистического процессора высокопроизводительный сервер, позволяющий работать с большими объемами информации.

По словам директора департамента инновационного развития Объединенной приборостроительной корпорации Александра Калинина, создание искусственного интеллекта является одним из основных трендов развития ИТ-технологий во всем мире. «Неоднократно высказывалось мнение, что технологии искусственного интеллекта гораздо опаснее, чем существующие виды вооружений. Главные конкуренты России в этой области на государственном уровне – США и Китай, на корпоративном – Google, Facebook, Apple и Baidu, осуществляющие масштабное инвестирование подобных проектов. В США это направление финансируется из бюджетов DARPA, IARPA, In-Q-Tel и еще около двадцати специализированных венчурных фондов. В нашей стране эти технологии только начинают развиваться, но процесс их развития набирает обороты», – пояснил Александр Калинин.

Российская система семантического анализа данных базируется на последних достижениях в области машинного обучения и технологий Big Data. Обрабатывая массивы данных, компьютер учится понимать морфологию, синтаксис языка, семантику слов и целых текстов. На основе этих «знаний» вычислительная машина осуществляет поиск необходимых пользователю новостей, статей, документов в интернет-источниках и различных информационных хранилищах. В отличие от традиционных поисковых систем, Ontosminer находит нужные сведения не по отдельным ключевым словам, а по смыслу целого документа, заданного в качестве запроса. Изучив весь объем данных и сформировав необходимую подборку, лингвистический процессор способен автоматически составить краткий аналитический отчет с описанием сути вопроса или события.

«Это умная система, способная без участия человека решать самые серьезные аналитические и прикладные задачи в разных сферах деятельности – в бизнесе, госуправлении, силовых ведомствах, здравоохранении, образовании, науке и т.д.», – комментирует Александр Калинин.

Среди участников проекта – Высшая школа экономики, Вычислительный центр РАН, Научно-исследовательский и испытательный центр биометрической техники МГТУ им. Баумана, Научно-техническое общество нефтяников и газовиков имени И.М. Губкина, Тихоокеанский госуниверситет, Ярославский государственный университет, Волгоградский государственный технический университет, Центральный НИИ экономики, информатики и систем управления, редакции нескольких федеральных СМИ, ряд других организаций, государственных и частных компаний, работающих в сфере информационных услуг, разработки ПО, энергетики, юриспруденции.

«Сейчас через лингвистический процессор пропущены десятки миллионов документов – в основном, публикаций СМИ. Цифра выглядит внушительно, но пока это достаточно скромная база «знаний». Этот показатель должен постоянно и кратно расти за счет ввода в систему новых данных из различных областей, что позволит дальше наращивать и совершенствовать ее аналитические способности. Именно эту задачу призван решить наш проект при участии многочисленных партнеров, которым открыт доступ к нашей системе», – комментирует Александр Калинин.

Источник: Ростех

Rasool · 20/09/09 2144 Уфа

Сайт указанного выше Ontosminer'а: http://ontosminer.opkrt.ru/

Rasool · 20/09/09 2144 Уфа

С Хабра: Text Analytics as Commodity: обзор приложений текстовой аналитики.

Цитата:

Если бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение

Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как

категоризация текста
извлечение информации
информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в$ 5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.

Безусловно, читатель наверняка ознакомлен с успехами платформы IBM Watson. Цель данной публикации — рассказать о других интересных и, возможно, малоизвестных приложений текстовой аналитики в таких областях, как:

управление документооборотом компании
e-commerce
бренд-менеджмент
маркетинг
конкурентная разведка
управление опытом клиента
информационная безопасность
виртуальные ассистенты и др.

По ссылке выше далее идет освещение этих приложений.

Rasool · 20/09/09 2144 Уфа

Лингвистические технологии в Интернете.

Специалист в области информационных технологий Анатолий Гершман о принципах работы поисковиков, системе индексирования сайтов и способах определения тональности текста.

(Оффтоп)

Что это такое лингвистические технологии? Люди говорят на естественных языках, таких, как английский, французский, немецкий, русский. Всего в мире более 6 тысяч живых языков. Языков, на которых говорят более миллиона человек, триста. Но есть языки, на которых говорят сотни миллионов, а есть языки, на которых говорят несколько сотен человек. Мы часто говорим об океане информации, в котором мы все утопаем. Но если посмотреть на эту информацию, то более 80% этой информации — это текст, речь, видео. Лингвистические технологии помогают нам найти эту информацию, обработать и сделать что-то полезное с этой информацией. Должен сразу оговориться, что мы говорим не о науке лингвистике, мы говорим о лингвистических технологиях, то есть о практических технологиях, которые позволяют нам сделать что-то полезное с информацией, заключенной в тексте или в речи.

Какие это технологии? Их примерно 5 областей. Во-первых, это технологии поиска информации. Мы все знакомы с поисковиками типа Google или Яндекс, уже трудно себе представить жизнь без таких технологий, без поисковиков. Во-вторых, это технологии извлечения информации. Скажем, если я напечатаю в Google или в Яндекс «на какие карты ставил Герман в повести “Пиковая дама”, поисковик найдет пиковую даму, но я-то уже знаю, что это пиковая дама, а вот тройка, семерка, туз — это уже извлекатель должен найти. Третья область технологий — это машинный перевод. Четвертая область — это генерация текста и речи. Например, из огромного количества данных как коротко объяснить, скажем, медсестре или врачу состояние больного ребенка или больного человека, или сделать прогноз погоды из тысяч данных, которые собирают метеорологические станции. Наконец, пятая область — это распознавание речи и общение с машинами.

[Управление большими массивами данных]
Управление большими массивами данных
Специалист в компьютерных науках Кьянг Ку о датамайнинге, системах «Твиттера» и «интернете вещей»
Давайте вкратце ознакомимся с каждой из этих областей технологии. Во-первых, поисковики. Как работают поисковики? Вы печатаете, например, в Google или в Яндекс, скажем, “ресторан лук Москва”. Поисковик, будем надеяться, находит вам кафе “Лук” на Большой Никитской, а не как разводить зеленый лук. Каким образом он это делает? Во-первых, поисковик смотрит на ваш запрос как мешочек слов, ему не важно, в каком порядке вы сказали “лук Москва ресторан”. Он берет эти слова и ищет документы, тоже рассматриваемые, как мешки слов, какой из них наиболее похож на ваш запрос. Как можно сказать, похож ли документ на запрос? Во-первых, в этом документе должны быть использованы слова из запроса, а во-вторых, как можно меньше других слов. Значит, самый идеальный документ, который наиболее близко соответствует запросу, — это документ, в котором есть только слова из запроса по этому методу. Теперь если смотреть на документы в Интернете как огромный склад мешков слов, то как мы найдем, например, документ, который похож? Сейчас у нас есть метод, как сравнивать наш мешочек-запрос с мешком документов, не перебирать же все триллионы документов в Интернете. Для этого, естественно, нам нужен индекс. К счастью, весь Интернет проиндексирован.

Что такое индекс? Индекс — это список слов, на каждое есть указатели на документы, в которых это слово употребляется. Google, Яндекс и другие поисковики постоянно индексируют интернет. Сейчас где-то в интернете около 60 триллионов страниц, это количество постоянно растет и они все время индексируются. Для индексации требуется колоссальное количество серверов, компьютеров. У больших поисковиков где-то около миллиона серверов у каждого компьютера, которые постоянно прочесывают интернет, и они потребляют огромное количество энергии. Например, скажем, вычислительный центр Google потребляет примерно такое же количество энергии, как большой алюминиевый завод. Это стало новой тяжелой промышленностью.

Тот метод сравнения запроса с документом, который я описал, — довольно примитивный метод, по этому методы работали ранние поисковики. Современные поисковики гораздо умнее, они, например, смотрят на слова в заголовке статьи, слова в заголовке статьи более важны, чем слова где-нибудь в конце статьи. Кроме того, они смотрят на количество ссылок на статью, то есть статья, на которую многие ссылаются, более интересная, важная, чем статья, на которую никто не ссылается и так далее. То есть современные поисковики гораздо более совершенны, чем ранние.

Теперь, когда вы печатаете ваш запрос в поисковик, Google или Яндекс, на самом деле начинает работать сразу два поисковика. Один поисковик ищет документы, наиболее соответствующие вашему запросу, а другой поисковик ищет, какую вам показать рекламу. Мы не думаем о втором, как о поисковике, но на самом деле это очень важный поисковик, потому что на этом основаны все доходы компаний-поисковиков, и он не менее сложен, чем первый. Для того, чтобы показать вам рекламу, на которую вы отреагируете позитивно, которая имеет шанс быть полезной для вас, надо понимать намерения покупателя. Например, если вы печатает запрос “ресторан лук Москва”, то ваше намерение скорее всего — это пойти в ресторан пообедать, поужинать. В этот момент показать вам, как проехать в ресторан, какое там меню, какие еще рестораны могут быть такого типа, указать на какие-то услуги, которые позволят вам заказать столик в ресторане — все это совершенно естественно и уместно. Так вот, определение намерений пользователя поисковика — это одно из главных направлений развития поисковиков.

[Начала компьютерной лингвистики]
Начала компьютерной лингвистики
Лингвист Леонид Иомдин о первом эксперименте по машинному переводу, синтаксической теории Хомского и моделировании языка
В то время как поисковики ищут документ, извлекатель информации извлекает конкретные факты, например, какой был доход у компании IBM в последнем квартале, или, например, подсчитывает количество положительных или отрицательных отзывов на какой-нибудь кинофильм. Есть два подхода к определению тональности. Один подход основан на словах, которые указывают на тональность. Например, слова “превосходный” и “отличный” указывают на положительную тональность текста, а слова “скучный”, “плохой” указывают на отрицательную тональность текста. Второй подход совсем другой. Для него нужно большое количество примеров, положительных отзывов о фильме, например, и большое количество отрицательных отзывов. На этих примерах обучается статистический классификатор, который сам выбирает, какие слова будут положительные, а какие слова будут отрицательные, без участия людей. В индустриальном мире скорее пользуются первым подходом, в академическом мире предпочитается второй подход. Но на самом деле лучшие извлекатели применяют комбинированный подход, какие-то признаки делаются вручную, а какие-то выявляются статистически.

Определение тональности всей статьи и всего текста — это одна задача. Но на самом деле один и тот же текст, например, отзыв о фильме, может содержать несколько разных тональностей, положительных и отрицательных по разным аспектам фильма. Скажем, читателю понравился один актер, а не понравился другой актер. Установление тональности по отношению к определенным аспектам продукта, фильм — это продукт, или автомобиля, например, пользователю понравился интерьер автомобиля, но не понравился двигатель, установление тональности по отношению к объектам — это одно из главных направлений развития этой технологии извлечения информации.

Поиск и извлечение информации на самом деле начинают немножко сходиться в нынешнем состоянии технологии. Такие поисковики, как Google или Яндекс, если вы напечатаете «какова высота Эйфелевой башни», вам ответят, или вы спросите курс рубля по отношению к доллару — вам ответят: не просто найдут документ, а ответят. То есть поисковики начинают в себя включать элементы извлечения информации. Происходит такая конвергенция поисковиков и извлекателей информации. Это очень перспективно и, конечно, сильно облегчит любой поиск и извлечение информации в интернете.

Rasool · 20/09/09 2144 Уфа

Коммерсант.Приложения:
Бизнес в поиске

Цитата:

Проблему поиска данных и документов в корпоративных системах решают поисковые системы, разработанные специально для бизнес-задач. Пока их рынок в РФ невелик — 300-500 млн руб. в год. Но искать что-либо становится все сложнее: компаниям требуются все более интеллектуальные инструменты поиска, которые у российских разработчиков есть.
Мария Попова

(Оффтоп)

В это направление поиска по данным, накопленным внутри корпоративных систем, делают серьезные вложения крупнейшие компании — Facebook, Apple, Baidu и др. В России крупные поставщики и холдинги в текущем году тоже начали наращивать свои компетенции, стремясь быстрее ответить на запрос рынка. Rambler, например, приобрел компанию RCO, специализирующуюся на компьютерной лингвистике, информационном поиске и обработке неструктурированной информации. "Ростех" в лице Объединенной приборостроительной корпорации (ОПК) анонсировал готовность интегрировать разработки "Авикомп Сервисез", в частности лингвистический процессор Ontosminer для построения сложных систем текстового мониторинга и анализа данных, поддерживающий поиск не по ключевым словам, а по смыслу документа. Параллельно ОПК запускает масштабный проект в области искусственного интеллекта и семантического анализа, в котором участвует более 30 российских компаний, образовательных и научных организаций, в том числе ВШЭ и Бауманка.

Быстрого развития поисковых технологий требуют постоянный рост объемов данных и изменение структуры информационного пространства. "Поиск никогда не стоит на месте,— подтверждает Алла Забровская, директор по связям с общественностью Google в Центральной и Восточной Европе, России и СНГ.— В 2014 году мы внесли более 1 тыс. изменений, которые не всегда заметны пользователям, но тем не менее делают поисковую выдачу с каждым разом все лучше. Пока что система не дает ответов на сложные запросы, когда требуется объединить для ответа результаты трех или четырех поисков: покажи мне перелеты стоимостью менее 10 тыс. руб. туда, где в декабре жарко и можно заниматься дайвингом. Вот над решением таких проблем мы сейчас и работаем". При этом надо добиваться сокращения времени, которое потратит пользователь, обращаясь к системе с запросом.

Одно из важнейших направлений работы команды Google сегодня — это мобильные устройства и сервисы, так как заметно растет использование поиска именно с мобильных устройств. Важно также обеспечить возможность легкого переключения между разными устройствами без потери информации. Например, это удалось реализовать в Google. Фотосервис автоматически синхронизирует снимки и картинки со всех устройств, собирая их в альбом, поиском по которому можно пользоваться так же, как на десктопе.

"Яндекс", которому как поисковой системе в нынешнем году исполняется 18 лет, акцентирует работу с большими данными. Yandex Data Factory развивает услуги для компаний, нуждающихся в обработке больших массивов информации. "Машинное обучение, распознавание образов и речи, нейронные сети, обработка естественного языка — эти технологии "Яндекса", используемые в YDF, выросли из первой экспертизы "Яндекса" — поиска. Работа над ним не заканчивается никогда, а основная часть команды, работающая над поиском, сосредоточена в направлении поисковых сервисов",— рассказывает Григорий Бакунов, директор по распространению технологий "Яндекса".

Нервы на пределе
Из относительно новых требований к поиску можно отметить сосредоточение на интересах конкретного пользователя, поиск по аудио- и видеоматериалам и социальный поиск. Это же относится и к корпоративному поиску: здесь растет интерес к классу решений, которые позволяют вести поиск в системах, подключаемых к внутренним базам, новостным сайтам, социальным сетям, форумам, тендерным площадкам и т. д.

Корпоративный поиск хотя и является неотъемлемой частью практически любой информационной системы, но до недавнего времени он оставался не самым очевидным явлением даже для бизнес-аудитории. Отчасти в силу своего недостаточного уровня развития, а также малой популяризации на фоне массовых веб-сервисов. По данным AIIM, около 70% респондентов считают, что найти корпоративную информацию гораздо сложнее, чем открытую в интернете. В российских реалиях две трети сотрудников компаний убеждены, что качество массовых поисковых сервисов выше, чем корпоративных, подтверждают результаты исследования 42Future.

"Поиск нужного документа иногда становится серьезной проблемой для корпоративного пользователя,— комментирует Олег Варламов, д.т.н., старший партнер и председатель научно-технического совета компании "Мивар".— Часто проще запросить требуемую информацию у профильного отдела, чем выбрать из неструктурированной свалки разноформатных файлов. Из-за того что поиск нужной информации занимает слишком много времени, снижается производительность труда, сотрудники раздражаются, что ухудшает эмоциональный климат в коллективе".

Определенные трудности здесь создает и сама логика развития — и постоянного усложнения — корпоративной инфраструктуры. "Когда в компании много систем, поиск становится сложнее,— поясняет Алексей Сидорин, эксперт в области бизнес-аналитики и обработки больших данных компании КРОК.— Приходится искать в каждой и консолидировать результаты. При этом длительность поисковых проектов зависит от многих факторов: размера организации, ее баз данных, категории внедряемых поисковых систем, уровня кастомизации и пр. Реализация внутрикорпоративного поиска может занять в среднем от одного до двух месяцев, социальной сети — от двух месяцев до года, а системы бизнес-аналитики — от трех месяцев и больше".

Каждый ищет, как он может
Рынок корпоративных поисковых систем и многочисленных прикладных решений, основанных на поисковых движках (Search Based Applications), является частью концепции управления знаниями, тесно смыкаясь с технологиями текстовой аналитики (Text Mining), семантическими технологиями, технологиями оценки эмоциональной окраски, выявления мнений, автоматической классификации и многими другими, поясняют в компании "Преферентум" (ГК АйТи). Объем этого условно выделяемого сегмента в России пока невелик: эксперты из АйТи оценивают его в 300-500 млн руб. по предварительным итогам 2015 года. В мире речь идет уже о миллиардах долларов.

Глобально мощные поисковые платформы и инструменты для текстовой аналитики предлагает известная группа крупных вендоров. Например, IBM с продуктом IBM Content Analytics, Microsoft — с MS Fast. Активно развивает поисковые технологии SAP — в частности, в платформе SAP HANA. Здесь уже реализованы функции поиска с точным совпадением и с нечетким совпадением (fuzzy search) — когда при поиске может быть задан порог точности совпадения (к примеру, 90%) и в результате будут найдены все варианты, которые, по мнению системы, совпадают с искомым словом более чем на 90%. А также есть анализ текстовых документов (договоров, документации и т. п.) и выделение определенных сущностей (человек, организация, адрес и т. п.) и отношений между ними (например, данный человек работает в этой организации).

"Основная проблема, с которой сталкиваются разработчики,— необходимость обеспечения высокой скорости и точности работы поисковых запросов при работе с большими объемами и сложной структурой данных,— рассказывает Дмитрий Шепелявый, заместитель генерального директора SAP СНГ.— В учетных системах хранятся действительно большие объемы данных (десятки терабайт). А в связи с большим количеством и разнообразием автоматизируемых бизнес-процессов (финансы, логистика, сбыт, производство, различные индустриальные решения и т. п.) в системах хранятся документы разнообразной структуры и сложности".

Есть также примеры СПО-реализаций поисковых движков (на основе свободного программного обеспечения), например Apache Lucene/Solr, Sphinx, PostgreSQL Textsearch и т. д. Это полнотекстовые движки, поддерживающие множество языков, в том числе русский. Здесь как раз обнаруживается слабое звено: наилучшим образом с русским языком справляются все же отечественные разработчики.

Всего в России этим направлением занимается около 20 компаний, считают эксперты АйТи, подчеркивая, что многие отечественные разработки часто демонстрируют лучшую производительность и качество решения прикладных поисковых задач, чем технологии западных вендоров. "Некоторые продукты вообще не имеют аналогов в мире, например разработанная в АйТи система "Правовая экспертиза", позволяющая выявлять правовые пробелы и коллизии, обнаруживать потенциальные коррупциогенные факторы в проектах нормативных правовых актов. Эта система несколько лет успешно работает в МВД и уже около года — в Государственной думе",— рассказывает Дмитрий Романов, генеральный директор компании "Преферентум" (ГК АйТи).

При этом эксперты АйТи полагают, что в "чистом виде" корпоративная поисковая система в России пока не привлекает особенного внимания корпораций. В отечественных компаниях на нее трудно найти функционального заказчика, имеющего бюджет и готового его потратить.

Что умеет корпоративный поиск
В отличие от интернета, корпоративный поиск охватывает информационные системы с учетом прав доступа. Поиск происходит как на файловых серверах, так и на платформах (например, SharePoint или Exchange). Важно, чтобы корпоративный поиск учитывал особенности инфраструктуры, а также был интегрирован со всеми системами и мог индексировать разные форматы данных.

Современные тенденции в области поисковых средств расширяют само понятие поиска, считают в КРОК. "Помимо поиска всех объектов, связанных с запросом, актуальны также совместная работа и установка связей между объектами. В таких случаях используется система для совместной работы, например корпоративная социальная сеть как единая точка доступа ко всей информации: поиску сотрудников, документов, обсуждений, проектов, рабочих групп — всей доступной информации внутри компании. Пользователи могут не только оперативно находить нужные данные, но и работать с этим контентом из единого окна, а также оценивать контент и добавлять метаданные, что помогает поиску и категоризации",— рассказывает Алексей Сидорин.

Работа большинства поисковых технологий основана на обработке больших данных, рассказывает Татьяна Даниэлян, заместитель директора по разработке технологий компании ABBYY. Как правило, поисковая выдача и ранжирование строятся на базе анализа статистики огромного количества взаимодействий пользователей и документов. Однако сотрудник, строя поисковый запрос, предполагает, что система сама поймет, в чем суть вопроса, найдет релевантные результаты и проранжирует их. При этом число обработанных поисковых запросов и последующих взаимодействий пользователей с результатами крайне мало по сравнению с аналогичной ситуацией интернет-поиска, а количество возможных неоднозначностей (омонимии, синонимы, пропущенные слова и т. д.) достаточно велико. Отсюда формируется потребность в поиске по смыслу, который основан на полном семантико-синтаксическом анализе документов и построении семантического поискового индекса. В результате поиск и ранжирование осуществляются по смыслу поискового запроса, а в выдаче человек получает релевантные документы, в которых могут быть и ключевые слова, и их синонимы — как обычные, так и смысловые.

"Например, "табурет" и "стул" не являются в чистом виде синонимами, но наша технология понимает, что они решают одну задачу, поэтому в этом ключе будут являться синонимами. Или если пользователь будет искать "положение об аттестации", то сможет найти не только прямые совпадения, но и, например, "статьи о сертификации". Технология Compreno благодаря семантико-синтаксическому анализу настраивается на предметную область автоматически во время построения индекса",— объясняет Татьяна Даниэлян.

Сыщики умнеют на глазах
Глобальная задача, стоящая сегодня перед всеми поисковыми системами, в том числе корпоративными,— это обеспечение возможности поиска по документу как единице поиска, считают в ABBYY. "Пользователи хотят формулировать свой запрос не просто в виде слова, фразы или предложения, они хотят на вход подать целый документ, а на выходе получить проранжированную выборку похожих документов. То есть в одной системе должны быть скомбинированы возможности поиска по словам, предложениям и документу целиком. Причем в идеале речь идет о поиске с запросом в виде документа, который может содержать и текст, и изображения и др. Предполагается, что будут и инструменты для ограничения получаемой выборки. Например, пользователь при поиске в такой системе по документу "приказ о назначении...", может указать, что его не интересуют документы, которые относятся к финансовой части вопроса,— поясняет Татьяна Даниэлян.— Сейчас эта задача остро стоит для eDiscovery (процесс поиска информации в документах компаний в рамках юридических разбирательств, аудита и расследований), в научно-исследовательской области и в области безопасности. Сюда же можно отнести задачу поиска по сложным картинкам".

Будущее машинного обучения, которое используют большинство систем корпоративного поиска, связано с применением лингвистики и систем, основанных на семантике, считают в ABBYY. Это позволит при обработке входящих документов и поиске учитывать связи между словами в предложениях и на протяжении всего документа корректно распознавать омонимии и другие неоднозначности речи.

Переход к интеллектуальному поиску становится технологической тенденцией, уверены в "Миваре". "Первые попытки создать "осмысленный" поиск уже предпринимаются. "Поиск 3.0" отличается от привычного нам тем, что работает не с ключевыми словами, а с контекстами,— говорит Олег Варламов.— Системы должны научиться понимать, о чем идет речь и в каком смысле употребляется то или иное слово или выражение. Это необходимо, чтобы различать сходные по звучанию и написанию фразы, например "ключ" как код и "ключ" как инструмент".

Появление в поисковых сервисах контекстов потребует реализации принципов интерактивности — когда система, если не поняла смысла запроса, задает наводящие вопросы, а на следующем этапе, поняв контекст, начинает выдавать пошаговые рекомендации, считает эксперт "Мивар". На базе такой платформы можно будет реализовать принцип живой документации — когда ответ на запрос формируется в виде алгоритма из разных нормативных актов и инструкций. Или же интеллектуальные системы смогут проверять документацию на противоречивость и соответствие нормативной базе, реферировать корпоративные инструкции и документы по заданным параметрам, проверять почтовые сообщения на предмет разглашения конфиденциальной информации и т. д.

К семантическому поиску уже проявляют интерес крупные корпорации, например в США. Они ожидают, что его применение будет способствовать оптимизации и повышению эффективности их деятельности. Такие системы могут упростить и ускорить доступ сотрудников к информации, увеличить производительность труда, в том числе за счет роботизации процессов. В принципе в этом же должны быть заинтересованы и компании СМБ, которых сдерживает главным образом стоимость поисковых систем нового поколения. Ожидается, что начало их массового применения позволит достаточно быстро решить эту проблему — системы станут доступнее по мере их распространения.

Rasool · 20/09/09 2144 Уфа

На днях послал материалы по компьютерной лингвистике своему однокласснику на почту, доценту кафедры менеджмента и маркетинга. Он как раз интересует разработкой систем сбора маркетинговой информации, думаю, что это будет ему интересно. Посмотрим, что из этого выйдет.

Rasool · 20/09/09 2144 Уфа

На Хабре опубликовали кое-что про технологию ABBYY Compreno:
Алгоритм извлечения информации в ABBYY Compreno. Часть 1,
Алгоритм извлечения информации в ABBYY Compreno. Часть 2.

Rasool · 20/09/09 2144 Уфа

На Хабре опубликовали статью Как решить проблему машинного понимания естественного языка - о том, как на основе разработок Шенка работать со смыслом текста:

Цитата:

Еще в далеком 1980г. в переводе на русский язык вышла книга Р. Шенка «Концептуальная обработка информации», в которой он описал выполненную им со своими аспирантами работу по моделированию машинного понимания естественного языка. Он разработал метод формального представления смыслового содержания ЕЯ-предложения, а его аспиранты реализовали в виде программ на языке ЛИСП три основные необходимые функции:

— семантическая трансляция – преобразование предложения нам естественном языке в соответствующую концептуальную модель;
— концептуальная память – манипулирование концептуальными структурами, соответствующее «человеческим» мыслительным операциям;
— концептуальная генерация – преобразование концептуальной структуры в текст на естественном языке.

Rasool · 20/09/09 2144 Уфа

ABBYY Compreno добавляет интеллект в «Логику СЭД»

Цитата:

Компания «Логика бизнеса» представляет новое решение для сортировки поступающих электронных обращений граждан в канцелярию СЭД с помощью технологии понимания и анализа текстов на естественных языках ABBYY Compreno.

Приходящие в электронном виде обращения граждан, например, с портала госуслуг разбирают в ручном режиме сотрудники канцелярии. Если объем обращений достигает 1000 в день, такая работа, которую автоматизировать сейчас, казалось бы, нет никакой возможности, требует много времени и трудозатрат. Однако интеллектуальная технология ABBYY Compreno позволяет автоматизировать процесс обработки поступающих в организацию запросов за счет понимания и анализа смысла обращения.

Созданное специалистами «Логики бизнеса» решение на базе ABBYY Compreno определяет в потоке поступающих электронных документов их тип, используя обучающую подборку на основе общероссийского классификатора обращений или классификатора обращений организации.

Из текста обращения «добывается» значимая информация (метаданные) для последующего создания регистрационной карточки. После этого СЭД отправляет документ по маршруту, который настроен для определенной тематики, или такой маршрут можно определить самостоятельно. Сотруднику канцелярии остается только проверить корректность заполнения карточки.

Аналогичное решение создано «Логикой бизнеса» и для бумажных документов: документ сканируется, текст распознается и анализируется. Затем автоматически создается и заполняется карточка документа в системе электронного документооборота и формируется задание для исполнителя.

Новые клиенты «Логики бизнеса» смогут получить эту функциональность в рамках общей лицензии на систему электронного документооборота «Логика СЭД». Тем, кто уже эксплуатирует систему «Логика СЭД» и хочет воспользоваться новой функциональностью, необходимо приобрести лицензии на ABBYY Compreno и услугу «Логики бизнеса» по ее внедрению.
«Созданное нами решение с использованием интеллектуальной технологии ABBYY Compreno существенно оптимизирует работу с входящими обращениями, — комментирует результаты проекта по разработке директор по консалтингу и разработке компании „Логика бизнеса“ Алексей Кислицын. — В планах у нас есть еще несколько сценариев применения ABBYY Compreno в наших ЕСМ-решениях, которые позволят заказчикам использовать в своей работе самые последние достижения в области анализа и понимания смысла документов».
«Технологии интеллектуальной обработки информации позволяют решать задачи бизнеса на качественно новом уровне, повышая конкурентоспособность организаций и увеличивая отдачу от инвестиций, уже вложенных в существующие ИТ-системы, — говорит Дмитрий Шушкин, заместитель генерального директора ABBYY Россия. — Совместно с нашими заказчиками мы реализуем ряд пилотных проектов, где ABBYY Compreno используется для повышения эффективности разных бизнес-процессов. „Логика СЭД“ давно востребована бизнесом и мы надеемся, что возможность интеллектуальной обработки обращений граждан принесет заказчикам еще большую выгоду от внедрения системы».

Karan · 19/10/15 1196

!	Rasool, предупреждение за ведение темы в стиле новостного блога.

Научный форум dxdy

Перспективы инженерии знаний и онтологий в частности

Кто сейчас на конференции