2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5, 6  След.
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение09.01.2015, 17:24 


20/09/09
684
Уфа
AlexDem в сообщении #956785 писал(а):
Тем более, что в принципе статьи у Вас уже есть.

Есть, но совсем по другой тематике. По компьютерной лингвистике пока нет. Я поддерживаю связь с одной аспиранткой, которая работает над диссертацией по машинному переводу.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение13.01.2015, 17:21 
Заблокирован
Аватара пользователя


07/08/06

3474
Rasool в сообщении #959165 писал(а):
Есть, но совсем по другой тематике.

Не знаю, как в Вашем случае, в моём это не имело никакого значения - никто про статьи не спрашивал, у меня их не было никаких.

Rasool в сообщении #959165 писал(а):
Я поддерживаю связь с одной аспиранткой, которая работает над диссертацией по машинному переводу.

Тем более - у Вас есть все возможности.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение23.01.2015, 22:04 


20/09/09
684
Уфа
На Хабре появилась вторая часть статьи про Compreno и онтологии: Онтоинженер: от сотворения мира к порождению сущностей.
Цитата:
Зачем все это нужно

Описанная выше система по сути представляет собой фабрику создания различных онтологий и соответствующих им моделей извлечения фактов и сущностей. Что именно будет «производиться» на этой фабрике – зависит уже от разнообразных потребностей конкретных заказчиков. И надо сказать, что во многих случаях «семантическая глубина» анализа и умение снимать неоднозначность оказываются для нас просто незаменимыми – например, парсер ABBYY Compreno способен отличить травку, которая на газоне (семантический класс “GRASS”), от той, о которой вы подумали (семантический класс “MARIJUANA”)…

В ходе работы возникают не только технические сложности, но и проблемы философско-мировоззренческого характера. Поэтому в онтоинженерском отделе часто можно услышать споры о том, является ли персонами Дед Мороз и Бэтмен, нужно ли извлекать сущность «наркотик» на «героиновых наркоманах», всегда ли убийство является преступлением и какой факт выделять, если кого-то загрызли собаки. В ходе этих дискуссий можно услышать много забавных фраз, и я в свободное от работы время даже начал собирать коллекцию под названием «Так говорят онтонженеры». Вот немного оттуда:

А можно поинтересоваться, как я должна труп отделять от костей?
Ей нужен концепт, в котором не сразу полный разврат!
А боги выделяются как люди? – Это не люди, но это личности!
Убей, пожалуйста, эту персону!
Онтоинженер_1: Нам пришел этот, как его…
Онтоинженер_2: (нецензурное слово, означающее конец всего)?
Онтоинженер_1: Да нет, аванс!
Кто сломал Bank account?


Кроме сугубо коммерческих начинаний есть и те, которые не про прибыль, а про вечные ценности. Многие наверняка слышали о проекте ABBYY и Музея Толстого «Весь Толстой в один клик», о котором как о впечатляющем краудсорсинговом прорыве писали Guardian и New Yorker. Цели этого проекта – оцифровка и вычитка (силами неравнодушных добровольцев) 90 томов полного собрания сочинений писателя – были достигнуты с опережением всех планов, и теперь появилась новая задача – семантическое издание Толстого. Этот проект призван задать стандарты публикации классического наследия в цифровую эпоху – с семантической разметкой, извлечением и идентификацией вымышленных и реальных сущностей, ссылками на общедоступные базы знаний вроде dbpedia или freebase. Мы надеемся, что использование системы извлечения информации на базе ABBYY Compreno поможет сократить объем ручного труда в этом проекте так же значительно, как использование ABBYY FineReader – при оцифровке 90-томника.

Параллельно с работой на заказ мы создаем на базе наших технологий и более универсальный продукт «общего пользования» — InfoExtractor. Он извлекает все традиционные сущности (персон, организации, локации) и факты (купля-продажа, трудоустройство, образование, родственные связи и многое другое), появляющиеся в новостных и публицистических текстах. Сейчас InfoExtractor существует в виде поисково-аналитического SDK IntelligentTagger, в дальнейшем планируется выпуск нескольких новых «умных» продуктов с прицелом на извлечение информации.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение24.01.2015, 11:44 
Аватара пользователя


31/10/08
803
Rasool
Как-то скромно за 19 лет освоили только неизменные конструкции. А о измененных молчат. Оно и видно что Толстого выбрали для демонстрации сильной стороны. Так как он писал об обыденных вещах.
Процент качества не представлен.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение24.01.2015, 21:12 


20/09/09
684
Уфа
В ноябре 2013-го на Хабре опубликовали статью Анатолия Старостина, руководителя группы семантического анализа и преподавателем кафедры «Компьютерная лингвистика» в МФТИ. Он рассказал о работе своей группы, направлениях компьютерной лингвистики в ABBYY и кто такие онтоинженеры: ScienceHub #06: Компьютерная лингвистика.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение05.02.2015, 11:19 


20/09/09
684
Уфа
На SQL.ru мне выложили следующую информацию:
Цитата:
Странно, что Вы так "прицепились" к Abbyy. В России есть множество других компаний, разрабатывающих подобные продукты (Yandex, AviComp, RCO, АйТеко, SyTech и др.), список см. Список программ, Список продуктов.

Насчёт компьютерной лингвистики (КЛ), то мне видится, что на сегодняшний день тот очень ограниченный список реально востребованных задач КЛ "поделен" между крупными игроками. Несмотря на заклинания о востребованности и перспективности, крайне трудно найти коммерчески привлекательную задачу КЛ, поскольку 99%  информационных потребностей подавляющего большинства пользователей (кстати, и мои в том числе) покрывает полнотекстовый поиск.  Скажем, надежды на универсальный семантический поиск, увы, не оправдались.
Можно реализовать неплохой семантический анализ, уметь прекрасно выделять именованные сущности, но зачем? И кому это надо?
Видимо, в Abbyy только сейчас озаботились этими вопросами, когда практические задачи уже расхватали другие компании, возможно, с менее качественными движками. То есть Abbyy долго делали мотор, пока остальные делали автомобили.
Вот как то так...

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение05.02.2015, 13:14 
Заблокирован
Аватара пользователя


07/08/06

3474
Rasool в сообщении #973944 писал(а):
Можно реализовать неплохой семантический анализ, уметь прекрасно выделять именованные сущности, но зачем? И кому это надо?

Это полезно, например, при анализе новостей. Типичный пример - анализ событий назначения и отставки должностных лиц.

PS: Вы будто свою компанию собрались организовывать. Ломитесь везде, куда пролезете - там и скажут, чем Вам следует заниматься. Вообще говоря, большие системы инерционны, там что-то своё вставить будет очень большой проблемой. Вам лучше смотреть туда, где ведётся исследовательская работа: на коленке что-то пишется, выбрасывается, и потом пишется что-то ещё - для проверки другой гипотезы.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение05.02.2015, 13:58 


20/09/09
684
Уфа
Нарыл на сайте мюнхенского университета: открыта позиция по компьютерной лингвистике для докторальных студентов и постдоков.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение06.02.2015, 16:03 


20/09/09
684
Уфа
Rasool в сообщении #956775 писал(а):
Думаю, в первую очередь нужно будет сделать публикации, чтобы заметили, а для этого нужно как следует поработать длительное время.

Хорошо бы определиться с ресурсом для публикации (журналом и т.д.) по компьютерной лингвистике. В интернете я нашел пока только MIT-ский журнал Computational Linguistics. Есть сборники конференций в публикациях стэнфордской группы NLP.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение07.02.2015, 21:56 


20/09/09
684
Уфа
За последний месяц я насчитал 33 научные вакансии PhD/Postdoc/Prof в университетах мира, связанные с компьютерной лингвистикой: https://nlppeople.com/index.php/component/jobboard/list/58-phdandpost-docandprofessor?limitstart=0. Это много или мало по сравнению с вакансиями по другим научным направлениям?

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение11.02.2015, 13:02 


20/09/09
684
Уфа
Нашел PhD-диссертацию постдока в Стэнфорде Ruihong Huang.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение07.04.2015, 22:06 


20/09/09
684
Уфа
Ко мне в LinkedIn упала следующая вакансия:
Цитата:
Инженер-исследователь, инженер-разработчик, инженер-программист, научный сотрудник (Южная Корея) / Research (R&D) Engineer, Software Engineer / SW Developer, Programmer, Scientist (SOUTH KOREA)

Описание вакансии

Samsung Electronics Co., Ltd. приглашает на работу инженеров-исследователей (research engineer / researcher), инженеров-разработчиков (R&D engineer / development engineer / developer), инженеров-программистов (software engineer / programming engineer / programmer), а также научных сотрудников (физиков (physics-related scientist / physics engineer / physicist) и химиков (chemistry scientist / chemical engineer / chemist)) (со знанием английского языка) в исследовательские центры компании в Республике Корея.

Разработка систем на основе искусственного интеллекта, машинного обучения, интеллектуального анализа данных (Artificial Intelligence [AI], Algorithms, Smart TV, Computer Vision, Camera Vision, Pattern Recognition, Image Recognition, Motion Recognition, Content Recognition, Automatic Speech Recognition [ASR], Natural-Language-Processing (NLP), Object Analysis, Image Processing, Image Filtering, Machine Learning, Data Mining, Text-to-Speech [TTS] Systems, Machine Reasoning, Database-Related Applications, Database-Related Services, Data Retrieval, Data Analysis, Mathematical Statistics, Optimization, Neural Networks, Eco-System Development, SDK, Embedded Software, Big Data Technology, Big Data Gathering, Fault Detection and Classification [FDC], Equipment Performance Tracking [EPT], Knowledge Discovery from Manufacturing Database [Equipment Engineering System [EES], MES, SCM], Hadoop, NoSQL, MapReduce, C/C++, Java, Python, Linux, Qt)

Требования к кандидатам:

ОБРАЗОВАНИЕ: Ученая степень кандидата технических, физико-математических или химических наук / обучение в аспирантуре / высшее профессиональное образование по направлению информатика, вычислительная техника, компьютерные технологии, приборостроение, радиоэлектроника, системы управления, сетевые технологии, автоматизация, робототехника, программирование, математика, механика, оптика, физика, химия, материаловедение (либо иное подходящее техническое / естественно-научное направление)
ОПЫТ РАБОТЫ: Научно-исследовательская и опытно-конструкторская работа (НИОКР) / прикладные разработки в указанных выше областях

Место работы:

Республика Корея (Южная Корея)

Дополнительная информация: JOB.SAMSUNG.RU

Электронная почта для подачи заявки на английском языке: JobFair@SAMSUNG.COM

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение19.04.2015, 21:01 


20/09/09
684
Уфа
В комментариях к статье на Хабре BPMN: Моделирование физических событий есть следующий комментарий:
Цитата:
Искренне рекомендую автору книги David C. Hay, прежде всего www.amazon.com/Data-Model-Patterns-Metadata-Management/dp/0120887983/ Data Model Patterns: A Metadata Map (вопрос о классах, объектах и что есть что там разобран в самом начале книги) и www.amazon.com/Enterprise-Model-Patterns-Describing-Version/dp/1935504053/Enterprise Model Patterns: Describing the World (UML Version) а также его статьи с 2006 и позднее — на его сайте и www.tdan.com/authors/index.php?a=237 на tdan.com. В вопросах осознания и моделирования онтологий предметных областей, на мой взгляд, Хэй — №1 в мире.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение05.05.2015, 23:10 


20/09/09
684
Уфа
Извлечение упоминаний сущностей и поиск в Textocat API.
Цитата:
Textocat API — это облачный SaaS анализа текстов. Качественное извлечение полезной информации из текстов — сложная задача и требует серьезной экспертизы. Миссия команды Textocat — сделать процесс обработки текстов настолько легким для использования, чтобы его мог включить в свой арсенал любой современный разработчик. Используя Textocat, вы можете быстро прототипировать приложения на основе текстовой аналитики и превращать их в свой бизнес. В данной публикации мы покажем, насколько легко интегрировать в любое приложение возможности Textocat API по распознаванию упоминаний сущностей (объектов) и поиску документов на русском языке.

Так что компьютерная лингвистика становится ближе обычным программистам.

 Профиль  
                  
 
 Re: Перспективы инженерии знаний и онтологий в частности
Сообщение25.05.2015, 22:55 


20/09/09
684
Уфа
Статья на Хабре об обработке неструктурированного текста сообщений в мессенджерах: Сериал: Big Data — как мечта. 9-я серия: Почему IBM был вынужден купить «Алхимиков» за $100млн.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 85 ]  На страницу Пред.  1, 2, 3, 4, 5, 6  След.

Модераторы: maxal, Karan, Toucan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group