2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Есть идеи корпуса текстов?
Сообщение24.12.2016, 00:16 


28/11/11
2884
Для последующих учебных целей (прохожу курс по компьютерной лингвистике) нужна идея для небезынтересного корпуса русскоязычных текстов.

Помогите мне понять: какие вообще бывают отличные от однотипно-советуемых типа "отзывов на сайтах про фильмы" и подобных.

Хочется чего-нибудь неочевидного, и чтобы это было хотя бы с видимостью дальнейшей полезности, хотя бы шуточной.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:36 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
Стандартный вариант корпуса - википедия, относительно чистый (мало битой кодировки, сравнительно мало опечаток и т.д.).
Еще есть НКРЯ (национальный корпус русского языка), даже с разметкой.

В зависимости от того, что вам нужно, можно хоть башорг распарсить. Что вы дальше с этими данными делать будете?

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:51 
Заслуженный участник
Аватара пользователя


09/09/14
6328
longstreet
Попробуйте сотрудничать с существующими корпусами -- раньше я видел у некоторых открытые проекты с предложением поучаствовать. В Нац. корпусе есть ссылки на десятки других корпусов, многие предлагают свои базы для скачивания.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:59 


28/11/11
2884
mihaild, Википедия как ресурс отлично подходит, да. Но вот задачу хочется перед собой видеть, я про нее и спрашиваю (наверно неудачно формулирую). Можно так: находим в Википедии список городов России, берем из каждой соответствующей статьи шапку про этот город и вставляем в один текст. В этом корпусе потом можно что-то искать, находить. Но задачи не вижу. Пусть смешной хотя бы.

-- 24.12.2016, 01:01 --

grizzly, это типа часть задачи: запрограммировать на Питоне выемку каких-нибудь интересных текстов из Интернета. НКРЯ отличный, но там такого учебного шага не вижу.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 02:14 
Заслуженный участник
Аватара пользователя


09/09/14
6328
longstreet в сообщении #1179586 писал(а):
Но задачи не вижу. Пусть смешной хотя бы.
Да, не уверен, что понимаю. Приведу пример.
Возьмём какой-нибудь математический ресурс, скопируем формулировки всех определений, которые найдём.
Задача: построить определение сложного объекта посредством прямой подстановки более простых.
Например, получить что-то такое:
"Равносторонним треугольником" называется "геометрическая фигура, образованная тремя отрезками, которые соединяют три точки, не лежащие на одной прямой", у которой все три "отрезка, соединяющих данные точки", равны.
(Мой вопрос не в том, смешная эта задача или нет, а в том, является ли это задачей в Вашем понимании.)
Другой пример более простой задачи: имея базу формулировок теорем и их доказательств, определить частотность слов там и там и сделать какой-то сравнительный анализ.

 Профиль  
                  
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 02:18 


28/11/11
2884
grizzly, вот это совершенно прекрасно (про вашу первую задачу)! Только с ходу не соображу подойдет ли, обдумаю.

Будет здорово, если ещё какие идеи тут появятся!))

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group