2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Есть идеи корпуса текстов?
Сообщение24.12.2016, 00:16 


28/11/11
2884
Для последующих учебных целей (прохожу курс по компьютерной лингвистике) нужна идея для небезынтересного корпуса русскоязычных текстов.

Помогите мне понять: какие вообще бывают отличные от однотипно-советуемых типа "отзывов на сайтах про фильмы" и подобных.

Хочется чего-нибудь неочевидного, и чтобы это было хотя бы с видимостью дальнейшей полезности, хотя бы шуточной.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:36 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
Стандартный вариант корпуса - википедия, относительно чистый (мало битой кодировки, сравнительно мало опечаток и т.д.).
Еще есть НКРЯ (национальный корпус русского языка), даже с разметкой.

В зависимости от того, что вам нужно, можно хоть башорг распарсить. Что вы дальше с этими данными делать будете?

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:51 
Заслуженный участник
Аватара пользователя


09/09/14
6328
longstreet
Попробуйте сотрудничать с существующими корпусами -- раньше я видел у некоторых открытые проекты с предложением поучаствовать. В Нац. корпусе есть ссылки на десятки других корпусов, многие предлагают свои базы для скачивания.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:59 


28/11/11
2884
mihaild, Википедия как ресурс отлично подходит, да. Но вот задачу хочется перед собой видеть, я про нее и спрашиваю (наверно неудачно формулирую). Можно так: находим в Википедии список городов России, берем из каждой соответствующей статьи шапку про этот город и вставляем в один текст. В этом корпусе потом можно что-то искать, находить. Но задачи не вижу. Пусть смешной хотя бы.

-- 24.12.2016, 01:01 --

grizzly, это типа часть задачи: запрограммировать на Питоне выемку каких-нибудь интересных текстов из Интернета. НКРЯ отличный, но там такого учебного шага не вижу.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 02:14 
Заслуженный участник
Аватара пользователя


09/09/14
6328
longstreet в сообщении #1179586 писал(а):
Но задачи не вижу. Пусть смешной хотя бы.
Да, не уверен, что понимаю. Приведу пример.
Возьмём какой-нибудь математический ресурс, скопируем формулировки всех определений, которые найдём.
Задача: построить определение сложного объекта посредством прямой подстановки более простых.
Например, получить что-то такое:
"Равносторонним треугольником" называется "геометрическая фигура, образованная тремя отрезками, которые соединяют три точки, не лежащие на одной прямой", у которой все три "отрезка, соединяющих данные точки", равны.
(Мой вопрос не в том, смешная эта задача или нет, а в том, является ли это задачей в Вашем понимании.)
Другой пример более простой задачи: имея базу формулировок теорем и их доказательств, определить частотность слов там и там и сделать какой-то сравнительный анализ.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 02:18 


28/11/11
2884
grizzly, вот это совершенно прекрасно (про вашу первую задачу)! Только с ходу не соображу подойдет ли, обдумаю.

Будет здорово, если ещё какие идеи тут появятся!))

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Sinoid


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group