2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Есть идеи корпуса текстов?
Сообщение24.12.2016, 00:16 
Для последующих учебных целей (прохожу курс по компьютерной лингвистике) нужна идея для небезынтересного корпуса русскоязычных текстов.

Помогите мне понять: какие вообще бывают отличные от однотипно-советуемых типа "отзывов на сайтах про фильмы" и подобных.

Хочется чего-нибудь неочевидного, и чтобы это было хотя бы с видимостью дальнейшей полезности, хотя бы шуточной.

 
 
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:36 
Аватара пользователя
Стандартный вариант корпуса - википедия, относительно чистый (мало битой кодировки, сравнительно мало опечаток и т.д.).
Еще есть НКРЯ (национальный корпус русского языка), даже с разметкой.

В зависимости от того, что вам нужно, можно хоть башорг распарсить. Что вы дальше с этими данными делать будете?

 
 
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:51 
Аватара пользователя
longstreet
Попробуйте сотрудничать с существующими корпусами -- раньше я видел у некоторых открытые проекты с предложением поучаствовать. В Нац. корпусе есть ссылки на десятки других корпусов, многие предлагают свои базы для скачивания.

 
 
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 00:59 
mihaild, Википедия как ресурс отлично подходит, да. Но вот задачу хочется перед собой видеть, я про нее и спрашиваю (наверно неудачно формулирую). Можно так: находим в Википедии список городов России, берем из каждой соответствующей статьи шапку про этот город и вставляем в один текст. В этом корпусе потом можно что-то искать, находить. Но задачи не вижу. Пусть смешной хотя бы.

-- 24.12.2016, 01:01 --

grizzly, это типа часть задачи: запрограммировать на Питоне выемку каких-нибудь интересных текстов из Интернета. НКРЯ отличный, но там такого учебного шага не вижу.

 
 
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 02:14 
Аватара пользователя
longstreet в сообщении #1179586 писал(а):
Но задачи не вижу. Пусть смешной хотя бы.
Да, не уверен, что понимаю. Приведу пример.
Возьмём какой-нибудь математический ресурс, скопируем формулировки всех определений, которые найдём.
Задача: построить определение сложного объекта посредством прямой подстановки более простых.
Например, получить что-то такое:
"Равносторонним треугольником" называется "геометрическая фигура, образованная тремя отрезками, которые соединяют три точки, не лежащие на одной прямой", у которой все три "отрезка, соединяющих данные точки", равны.
(Мой вопрос не в том, смешная эта задача или нет, а в том, является ли это задачей в Вашем понимании.)
Другой пример более простой задачи: имея базу формулировок теорем и их доказательств, определить частотность слов там и там и сделать какой-то сравнительный анализ.

 
 
 
 Re: есть идеи корпуса текстов?
Сообщение24.12.2016, 02:18 
grizzly, вот это совершенно прекрасно (про вашу первую задачу)! Только с ходу не соображу подойдет ли, обдумаю.

Будет здорово, если ещё какие идеи тут появятся!))

 
 
 [ Сообщений: 6 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group