Открытые данные проекта

Проект публикует агрегированные частотные данные абхазского языка, построенные из открытых источников. Это рабочие материалы: они ещё не проверены лексикографом и носителями и не являются «учебным ядром» — но уже могут быть полезны исследователям и разработчикам.

Частотные списки

Файл	Источник	Что внутри	Лицензия данных
freq_abnc_lemma_v1.csv	Abkhaz National Corpus, 10,8 млн словоупотреблений	4921 лемма с частотами (топ-5000 минус не-кириллический шум)	CC0 (CLARIN PUB)
freq_cv_pool_v0.csv	пул предложений Common Voice (1,05 млн предложений)	топ-5000 словоформ; литературно-диалоговый регистр (переводная проза и предложения для начитки, не спонтанная речь)	CC0
freq_abwiki_v0.csv	абхазская Википедия (34 тыс. статей)	топ-3000 словоформ, энциклопедический регистр	CC BY-SA 4.0

Как это сделано

Все списки построены воспроизводимыми скриптами (Python, стандартная библиотека): из источников берётся текст, удаляется разметка, токены приводятся к нижнему регистру, грубо отфильтровываются русские вкрапления. В файлах — только агрегаты (слово, частота, частота на миллион); исходные тексты и предложения не перепубликуются.

Известные ограничения каждого среза описаны в методических документах проекта: списки из Википедии и Common Voice — словоформы (не леммы), список ABNC — леммы по автоматическому морфоразбору. Полисинтетика абхазского делает лемматизацию нетривиальной: до проверки лексикографом данные стоит считать черновыми.

Как читать леммы ABNC: разметка корпуса сохраняет морфемную сегментацию дефисами и знак ударения (например, а-ҳәа-ра́ — лемма с показанными границами морфем и ударением). Это не орфографическая словарная форма: для учебного словаря записи нормализуются лексикографом. Из опубликованного файла удалены строки без кириллической леммы (пунктуация и неразобранные токены исходной выгрузки).

Зачем это

Сверка трёх независимых срезов выделяет устойчивое высокочастотное ядро языка.
Из ядра после проверки носителями строится учебный словарь A0–A2 (800–1200 единиц).
Открытая публикация агрегатов — вклад проекта в цифровую экосистему абхазского языка.

При использовании данных просим ссылаться на источники из таблицы; для списка по Википедии обязательна атрибуция CC BY-SA.