Компютърна лингвистика
от Уикипедия, свободната енциклопедия
Лингвистика |
Теоретична лингвистика |
Лингвистични методи |
Същност на езика |
Езикът като знакова система |
Езикът като система |
Фонетика |
Говорен апарат |
Артикулационна фонетика |
Гласни звукове |
Съгласни звукове |
Фонетична акустика |
Гласни звукове |
Съгласни звукове |
Фонетично членение на речта |
Фонология |
Фонема |
Позиция на фонемата |
Опозиция на фонемата |
Дистрибуция на фонемата |
Звукови промени |
Фонетични промени |
Нефонетични промени |
Морфология |
Синтаксис |
Семантика |
Лексикална семантика |
Стуктурална семантика |
Стилистика |
Диалектология |
Приложна лингвистика |
Психолингвистика |
Социолингвистика |
Генеративна лингвистика |
Когнитивно лингвистика |
Компютърна лингвистика |
Дескриптивна лингвистика |
Историческа лингвистика |
Компаративна лингвистика |
Етимология |
История на лингвистиката |
Лингвистични школи |
Известни лингвисти |
Нерешени проблеми |
Компютърната лингвистика е интердисциплинарна теоретико-приложна наука, която се занимава както с формалното описание на естествения език, така и с разработването и прилагането на компютърните технологии при статистическото и логическото му анализиране и моделиране. Езиковото компютърно моделиране не е ограничено в конкретен дял или граници в лингвистиката. То обикновено се осъществява от интердисциплинарни екипи от компютърни специалисти, лингвисти, програмисти, логици, математици, специалисти по изкуствен интелект, когнитивна психология и др. Разработват се електронни езикови приложения и системи, които обслужват потребителите при работата им с текстове - такива са програмите за автоматично коригиране на правописа, за автоматичен превод от един език на друг, за категоризиране и резюмиране на документи; за преобразуване на текст в реч и обратно и др., както и програми, обслужващи лингвистичните изследвания и анализи.
Съдържание |
[редактиране] Области
Едни от основните области в компютърната лингвистика са:
- автоматичен анализ на текстове
- генериране на текстове
- анализ и синтез на реч
[редактиране] Приложение
[редактиране] Автоматичен анализ на текстове
Автоматичното анализиране на текстове се използва в области като машинен превод, интелигентно търсене на информация, автоматично отговаряне на въпроси и др. Генерирането на текстове има приложение при интелигентните интерфейси. Компютърната обработка на реч се използва в различни компютърни системи за автоматично преобразуване на текст в реч или на реч в текст, в устройства, управлявани с гласови команди (например управление на автомобил с глас) и др.
Автоматичният анализ може да обхваща различни нива от заложената в текста информация. Това определя множество подзадачи и модули като: токънизиране (разделяне текста на определени единици - фонеми, морфеми, графични думи, лексеми, изречения и др.); тагиране (приписване на характеристики на всяка отделна единица - приписване на дадени морфологични, синтактични, морфосинтактични, семантични и др. характеристики); парсиране - морфологичен анализ, синтактичен анализ, разрешаване на различни езиково специфични явления като местоименни и неместоименни анафори, елипси и др. и на различните типове езикова многозначност.
Различните нива на анализ използват различни програми: морфологични анализатори (тагери), синтактични анализатори (парсери), разрешители на анафори, анализатори на реторичната структура.
Текущото състояние на автоматичния текстов анализ позволява сравнително надежден морфологичен анализ /до 99% точност/, не дотам точен синтактичен анализ /80-85%/ и твърде неточно разрешаване на анафори /70-80%/. Съществуват и разработки за привеждане на текста в логическа форма.
При автоматичния анализ на текстове се използват ресурси, в които е зададено знанието за езика. Такива ресурси са морфологичните речници, граматиките, онтологиите, честотни таблици, информация за синтактичните рамки на глаголите и др.
Друг източник на знания са колекциите от текстове в електронен формат /корпуси/, които се използват за различни типове езикови анализи и заключения, както и за извличане на езикова информация чрез компютърни програми и статистически техники. Този дял от компютърната лингвистика е познат като корпусна лингвистика.
[редактиране] Генериране на текстове
Програмите за генериране на текст, за разлика от текстообработващите програми, анализиращи готовия вече текст, използват определени модели, по които се конструира смисъла на текста и конструират лингвистичното му представяне.
[редактиране] Анализ и синтез на реч
Обработката на реч използва статистически техники за да се превърнат гласовите команди в текст.
[редактиране] Вижте още
[редактиране] Външни препратки
- Секция по компютърна лингвистика при БАН теоретични и приложни изследвания в областта на компютърната обработка на естествените езици.
- БГ Офис: база с думи за проверка на правописа, проверка за съгласуване на частите на речта (проверка на граматиката) и сричкопренасяне с лиценз GNU GPL
- Онлайн демонстрация на системата за граматически анализ на български език
- Програма за превод от шльокавица на български (за конзола и сървъри; онлайн демонстрация; превежда различни диалекти на шьокавицата)