Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные word2vec модели, обученные на текстах из 7 корпусов, которые мы используем для поиска слов-ассоциатов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
В апреле мы значительно усовершенствовали работу Древнерусского корпуса. В корпусе появились новые виды выдачи: Частотность, Статистика, n-граммы. Благодаря появлению в Древнерусском корпусе вида выдачи «Частотность» можно исследовать, например, какие существительные в корпусе чаще всего встречаются вместе. Кроме того, результаты выдачи теперь можно сортировать по контексту. В портрете корпуса появился Частотный словарь, доступный ранее в Основном, Газетном и других корпусах; частотный словарь памятников или их групп можно сравнивать со словарем корпуса текстов.
Появление нового функционала существенно расширяет возможности использования корпуса и автоматизирует рутинные процессы, которые ранее занимали у исследователя значительное время.
Мы продолжаем внедрять новый функционал, уже доступный в передовых корпусах — Основном, Газетных, Обучающем — в другие корпуса. Теперь пользователям НКРЯ доступна улучшенная версия корпуса «От 2 до 15». Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей. В корпусе стали доступны поиск по синтаксическим отношениям и поиск коллокаций, а также новые виды выдачи: частотность, н-граммы, статистика.
Обновились портрет слова и корпуса, добавлены новые виды сортировок по контексту.
В Портрете слова можно увидеть, что слова мама и папа гораздо чаще употребляются в текстах для самых младших читателей - 7-8 лет, а слова бабушка и дедушка - поровну в текстах для самых младших читателей и для подростков 14-15 лет.
Плашка возле фрагмента с указанием возраста читателей, которым эти фрагменты должны быть понятны, стала кликабельной. По клику вы увидите рассчитанные классические индексы сложности: Индекс Флеша-Кинкейда, Индекс Колман-Лиау, Автоматический индекс удобочитаемости, Simple Measure of Gobbledygook, Индекс Дейла-Чалл.
В преддверии 20-летия Национального корпуса мы существенно обновили страницу публикаций на нашем сайте. Пополнен список публикаций о Корпусе: количество публикаций увеличилось примерно в 5 раз! Теперь в разделе представлены как научные статьи, так и другие типы публикаций — интервью, инструкции, публикации в социальных сетях.
Страница публикаций о Корпусе стала более функциональной: теперь найти публикацию, посвященную Национальному корпусу русского языка, можно в строке поиска или с помощью фильтров, расположенных справа.
По умолчанию пользователю показываются наиболее популярные фильтры. Чтобы увидеть все доступные фильтры на странице публикаций, нажмите «Показать все». Сочетание нескольких фильтров сужает поиск и позволяет отобрать публикации по нескольким критериям.
Некоторые публикации можно скачать, нажав на иконку справа от названия. Остальные публикации открываются в отдельном окне. Вы можете поделиться списком отобранных публикаций, нажав на кнопку «Копировать ссылку на запрос».