Компютърна лингвистика

от Уикипедия, свободната енциклопедия

Лингвистика
Теоретична лингвистика
Лингвистични методи
Същност на езика
Езикът като знакова система
Езикът като система
Фонетика
Говорен апарат
Артикулационна фонетика
Гласни звукове
Съгласни звукове
Фонетична акустика
Гласни звукове
Съгласни звукове
Фонетично членение на речта
Фонология
Фонема
Позиция на фонемата
Опозиция на фонемата
Дистрибуция на фонемата
Звукови промени
Фонетични промени
Нефонетични промени
Морфология
Синтаксис
Семантика
Лексикална семантика
Стуктурална семантика
Стилистика
Диалектология
Приложна лингвистика
Психолингвистика
Социолингвистика
Генеративна лингвистика
Когнитивно лингвистика
Компютърна лингвистика
Дескриптивна лингвистика
Историческа лингвистика
Компаративна лингвистика
Етимология
История на лингвистиката
Лингвистични школи
Известни лингвисти
Нерешени проблеми

Компютърната лингвистика е интердисциплинарна теоретико-приложна наука, която се занимава както с формалното описание на естествения език, така и с разработването и прилагането на компютърните технологии при статистическото и логическото му анализиране и моделиране. Езиковото компютърно моделиране не е ограничено в конкретен дял или граници в лингвистиката. То обикновено се осъществява от интердисциплинарни екипи от компютърни специалисти, лингвисти, програмисти, логици, математици, специалисти по изкуствен интелект, когнитивна психология и др. Разработват се електронни езикови приложения и системи, които обслужват потребителите при работата им с текстове - такива са програмите за автоматично коригиране на правописа, за автоматичен превод от един език на друг, за категоризиране и резюмиране на документи; за преобразуване на текст в реч и обратно и др., както и програми, обслужващи лингвистичните изследвания и анализи.

Съдържание

[редактиране] Области

Едни от основните области в компютърната лингвистика са:

  • автоматичен анализ на текстове
  • генериране на текстове
  • анализ и синтез на реч

[редактиране] Приложение

[редактиране] Автоматичен анализ на текстове

Автоматичното анализиране на текстове се използва в области като машинен превод, интелигентно търсене на информация, автоматично отговаряне на въпроси и др. Генерирането на текстове има приложение при интелигентните интерфейси. Компютърната обработка на реч се използва в различни компютърни системи за автоматично преобразуване на текст в реч или на реч в текст, в устройства, управлявани с гласови команди (например управление на автомобил с глас) и др.

Автоматичният анализ може да обхваща различни нива от заложената в текста информация. Това определя множество подзадачи и модули като: токънизиране (разделяне текста на определени единици - фонеми, морфеми, графични думи, лексеми, изречения и др.); тагиране (приписване на характеристики на всяка отделна единица - приписване на дадени морфологични, синтактични, морфосинтактични, семантични и др. характеристики); парсиране - морфологичен анализ, синтактичен анализ, разрешаване на различни езиково специфични явления като местоименни и неместоименни анафори, елипси и др. и на различните типове езикова многозначност.

Различните нива на анализ използват различни програми: морфологични анализатори (тагери), синтактични анализатори (парсери), разрешители на анафори, анализатори на реторичната структура.

Текущото състояние на автоматичния текстов анализ позволява сравнително надежден морфологичен анализ /до 99% точност/, не дотам точен синтактичен анализ /80-85%/ и твърде неточно разрешаване на анафори /70-80%/. Съществуват и разработки за привеждане на текста в логическа форма.

При автоматичния анализ на текстове се използват ресурси, в които е зададено знанието за езика. Такива ресурси са морфологичните речници, граматиките, онтологиите, честотни таблици, информация за синтактичните рамки на глаголите и др.

Друг източник на знания са колекциите от текстове в електронен формат /корпуси/, които се използват за различни типове езикови анализи и заключения, както и за извличане на езикова информация чрез компютърни програми и статистически техники. Този дял от компютърната лингвистика е познат като корпусна лингвистика.

[редактиране] Генериране на текстове

Програмите за генериране на текст, за разлика от текстообработващите програми, анализиращи готовия вече текст, използват определени модели, по които се конструира смисъла на текста и конструират лингвистичното му представяне.

[редактиране] Анализ и синтез на реч

Обработката на реч използва статистически техники за да се превърнат гласовите команди в текст.

[редактиране] Вижте още

[редактиране] Външни препратки