Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Мы продолжаем внедрять новый функционал, уже доступный в передовых корпусах — Основном, Газетных, Обучающем — в другие корпуса. Теперь пользователям НКРЯ доступна улучшенная версия корпуса «От 2 до 15». Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей. В корпусе стали доступны поиск по синтаксическим отношениям и поиск коллокаций, а также новые виды выдачи: частотность, н-граммы, статистика.
Обновились портрет слова и корпуса, добавлены новые виды сортировок по контексту.
В Портрете слова можно увидеть, что слова мама и папа гораздо чаще употребляются в текстах для самых младших читателей - 7-8 лет, а слова бабушка и дедушка - поровну в текстах для самых младших читателей и для подростков 14-15 лет.
Плашка возле фрагмента с указанием возраста читателей, которым эти фрагменты должны быть понятны, стала кликабельной. По клику вы увидите рассчитанные классические индексы сложности: Индекс Флеша-Кинкейда, Индекс Колман-Лиау, Автоматический индекс удобочитаемости, Simple Measure of Gobbledygook, Индекс Дейла-Чалл.
В преддверии 20-летия Национального корпуса мы существенно обновили страницу публикаций на нашем сайте. Пополнен список публикаций о Корпусе: количество публикаций увеличилось примерно в 5 раз! Теперь в разделе представлены как научные статьи, так и другие типы публикаций — интервью, инструкции, публикации в социальных сетях.
Страница публикаций о Корпусе стала более функциональной: теперь найти публикацию, посвященную Национальному корпусу русского языка, можно в строке поиска или с помощью фильтров, расположенных справа.
По умолчанию пользователю показываются наиболее популярные фильтры. Чтобы увидеть все доступные фильтры на странице публикаций, нажмите «Показать все». Сочетание нескольких фильтров сужает поиск и позволяет отобрать публикации по нескольким критериям.
Некоторые публикации можно скачать, нажав на иконку справа от названия. Остальные публикации открываются в отдельном окне. Вы можете поделиться списком отобранных публикаций, нажав на кнопку «Копировать ссылку на запрос».
На сайте НКРЯ доступны два новых параллельных корпуса. Японско-русская языковая пара насчитывает более 400 тысяч слов и включает переведенные с японского художественные тексты и новости. Хакасско-русские параллельные тексты, подготовленные для НКРЯ на базе Электронного корпуса хакасского языка, насчитывают более 1 млн словоупотреблений и охватывают и фольклор (включая записи XIX в.), и авторскую литературу, и публицистику.
Пополнены и уже имеющиеся параллельные корпуса. Существеннее всего выросли португальский (теперь 1.6 млн словоупотреблений) и чешский (4.3 млн) корпуса.
В Портретах слова Газетного, Обучающего корпуса и корпуса «Русская классика» появились новые виджеты.
В корпусе Центральных СМИ и корпусе «Русская классика» появились виджеты Скетчи, Частотность слова и Похожие слова. Поскольку портрет слова строится на материале корпуса, то скетчи и похожие слова для одного и того же слова получаются разными в разных корпусах. Например, в текстах корпуса Центральных СМИ шутка чаще всего бывает злой и первоапрельской, а в произведениях русских классиков — колкой и забавной.
Обновился виджет Статистика во всех трех корпусах. Переходите по ссылке, чтобы узнать, в каком типе текстов русских классиков чаще употребляется слово анекдот.