Открытые данные проекта
Проект публикует агрегированные частотные данные абхазского языка, построенные из открытых источников. Это рабочие материалы: они ещё не проверены лексикографом и носителями и не являются «учебным ядром» — но уже могут быть полезны исследователям и разработчикам.
Частотные списки
| Файл | Источник | Что внутри | Лицензия данных |
|---|---|---|---|
| freq_abnc_lemma_v1.csv | Abkhaz National Corpus, 10,8 млн словоупотреблений | 4921 лемма с частотами (топ-5000 минус не-кириллический шум) | CC0 (CLARIN PUB) |
| freq_cv_pool_v0.csv | пул предложений Common Voice (1,05 млн предложений) | топ-5000 словоформ; литературно-диалоговый регистр (переводная проза и предложения для начитки, не спонтанная речь) | CC0 |
| freq_abwiki_v0.csv | абхазская Википедия (34 тыс. статей) | топ-3000 словоформ, энциклопедический регистр | CC BY-SA 4.0 |
Как это сделано
Все списки построены воспроизводимыми скриптами (Python, стандартная библиотека): из источников берётся текст, удаляется разметка, токены приводятся к нижнему регистру, грубо отфильтровываются русские вкрапления. В файлах — только агрегаты (слово, частота, частота на миллион); исходные тексты и предложения не перепубликуются.
Известные ограничения каждого среза описаны в методических документах проекта: списки из Википедии и Common Voice — словоформы (не леммы), список ABNC — леммы по автоматическому морфоразбору. Полисинтетика абхазского делает лемматизацию нетривиальной: до проверки лексикографом данные стоит считать черновыми.
Как читать леммы ABNC: разметка корпуса сохраняет морфемную сегментацию дефисами и знак ударения (например, а-ҳәа-ра́ — лемма с показанными границами морфем и ударением). Это не орфографическая словарная форма: для учебного словаря записи нормализуются лексикографом. Из опубликованного файла удалены строки без кириллической леммы (пунктуация и неразобранные токены исходной выгрузки).
Зачем это
- Сверка трёх независимых срезов выделяет устойчивое высокочастотное ядро языка.
- Из ядра после проверки носителями строится учебный словарь A0–A2 (800–1200 единиц).
- Открытая публикация агрегатов — вклад проекта в цифровую экосистему абхазского языка.
При использовании данных просим ссылаться на источники из таблицы; для списка по Википедии обязательна атрибуция CC BY-SA.