Аҧсуа Абхазский язык ← Все документы

Открытые данные проекта

Проект публикует агрегированные частотные данные абхазского языка, построенные из открытых источников. Это рабочие материалы: они ещё не проверены лексикографом и носителями и не являются «учебным ядром» — но уже могут быть полезны исследователям и разработчикам.

Частотные списки

Файл Источник Что внутри Лицензия данных
freq_abnc_lemma_v1.csv Abkhaz National Corpus, 10,8 млн словоупотреблений 4921 лемма с частотами (топ-5000 минус не-кириллический шум) CC0 (CLARIN PUB)
freq_cv_pool_v0.csv пул предложений Common Voice (1,05 млн предложений) топ-5000 словоформ; литературно-диалоговый регистр (переводная проза и предложения для начитки, не спонтанная речь) CC0
freq_abwiki_v0.csv абхазская Википедия (34 тыс. статей) топ-3000 словоформ, энциклопедический регистр CC BY-SA 4.0

Как это сделано

Все списки построены воспроизводимыми скриптами (Python, стандартная библиотека): из источников берётся текст, удаляется разметка, токены приводятся к нижнему регистру, грубо отфильтровываются русские вкрапления. В файлах — только агрегаты (слово, частота, частота на миллион); исходные тексты и предложения не перепубликуются.

Известные ограничения каждого среза описаны в методических документах проекта: списки из Википедии и Common Voice — словоформы (не леммы), список ABNC — леммы по автоматическому морфоразбору. Полисинтетика абхазского делает лемматизацию нетривиальной: до проверки лексикографом данные стоит считать черновыми.

Как читать леммы ABNC: разметка корпуса сохраняет морфемную сегментацию дефисами и знак ударения (например, а-ҳәа-ра́ — лемма с показанными границами морфем и ударением). Это не орфографическая словарная форма: для учебного словаря записи нормализуются лексикографом. Из опубликованного файла удалены строки без кириллической леммы (пунктуация и неразобранные токены исходной выгрузки).

Зачем это

  1. Сверка трёх независимых срезов выделяет устойчивое высокочастотное ядро языка.
  2. Из ядра после проверки носителями строится учебный словарь A0–A2 (800–1200 единиц).
  3. Открытая публикация агрегатов — вклад проекта в цифровую экосистему абхазского языка.

При использовании данных просим ссылаться на источники из таблицы; для списка по Википедии обязательна атрибуция CC BY-SA.