Машинен превод

от Уикипедия, свободната енциклопедия

Машинен превод е дисциплина от компютърната лингвистика, която се занимава със задачата за автоматично превеждане на писмен текст или реч от един естествен език на друг чрез компютърен софтуер. В най-простия си вариант МП представлява обикновено заместване на думи от един език с думи от друг. Използването на текстови корпуси дава възможност за по-сложни методи за превод, включващи отразяване на типологичните разлики между езиците, разпознаване на фрази, превеждане на идиоми и изолиране на аномалии.

Съвременният софтуер за машинен превод често позволява избор на предметна област (например право или метеорология). Целта е да се подобри качеството на резултата чрез ограничаване на допустимите значения на думите. Тази техника е особено ефективна в области, в които се ползват стандартизирани, шаблонни езикови средства. Затова машинният превод на правителствени или правни документи често е по-сполучлив от превода на свободен разговор или друг слабо стандартизиран текст.

Качеството на резултата може да се подобри и чрез човешка намеса. Например, някои системи са в състояние да превеждат по-точно, ако потребителят е определил еднозначно кои думи в текста представляват имена. С помощта на подобни техники машинният превод се оказва полезно помощно средство за хората – преводачи и в някои случаи дори може да даде резултат, използваем без допълнително редактиране. Съвременните системи обаче не са в състояние да конкурират хората – преводачи по качество на превода, особено при текстове в художествен или разговорен стил.

Машинният превод не трябва да се бърка с подпомагания от компютър превод. При последния водещата роля в превода се изпълнява от човек – преводач, а софтуерът само улеснява някои аспекти от работата му.


Съдържание

[редактиране] Увод

Процесът на превеждане може да бъде описан като съвкупност от

  1. декодиране значението на изходния текст и
  2. кодирането на откритото значение със средствата на целевия език.

Зад тази проста процедура се крие сложен познавателен процес. За да декодира цялостно значението на изходния текст, преводачът трябва да изтълкува и анализира всички негови особености, което изисква задълбочени познания за граматиката, семантиката, синтаксиса, идиомите и други свойства на изходния език, както и за културата на хората, които го ползват. За втората част от процеса същите познания се изискват и за целевия език.

Предизвикателството пред машинния превод е следното: как да се програмира компютърът, така че да „разбира“ текста подобно на човек и да създава на друг език нов текст със същия смисъл, който да изглежда като написан от човек?

Към решаването на тази задача може да се подходи по различни начини.

[редактиране] Видове машинен превод

[редактиране] Машинен превод, базиран на речник

Най-простият вид машинен превод замества думи от единия език със съответните им думи от другия, без да коригира словореда или да се съобразява с различните значения, които придобиват думите в различни съчетания помежду си. Този вид „превод“ е със силно ограничено приложение.

[редактиране] Машинен превод, базиран на правила

При базирания на правила машинен превод базата от данни включва граматични правила за анализ и синтез на изречения и словосъчетания. Често се приема, че за да се реши задачата за машинния превод, първо трябва да се реши задачата за разбиране на естествен език. При този вид превод програмата анализира оригиналния текст и го преобразува до специално вътрешно представяне, от което след това се синтезира преведеният текст. За това са нужни обширни речници и набори от правила, включващи подробна морфологична, синтактична и семантична информация за разглежданите езици. Тези ресурси се обикновено се изготвят ръчно от квалифицирани езиковеди и изработването им е сложна и трудоемка задача.

Die Deutschen haben noch eine Art von Parenthese, die sie bilden in dem sie ein Verb in zwei Teile spalten und die eine Helfte an den Anfang einse Absatzes schtelleb und die andere Helfte an das Ende.

[редактиране] Машинен превод, базиран на примери

При базирания на примери машинен превод двуезичният корпус се използва по време на самото превеждане и непознатите изречения се превеждат по аналогия с най-близкия известен на програмата пример. Този подход е много близък с машинното самообучение.

[редактиране] Машинен превод с помощта на междинен език

Машинният превод чрез междинен език е частен случай на превода, базиран на правила. При този подход изходният текст се трансформира във вид, независим от изходния и целевия език – интерлингва. След това от въпросното представяне се генерира текст на целевия език.

[редактиране] Основни проблеми

[редактиране] Многозначност

Думите с повече от едно значение са трудни за автоматично превеждане. Днес съществуват различни подходи за преодоляване на този проблем, които могат да бъдат групирани в две категории: „плитки“ и „дълбоки“.

При „плитките“ подходи, които засега са по-сполучиливи в практиката, не се изисква разбиране на текста – вместо това се използват статистически методи, за да анализира контекстът на нееднозначната дума. При „дълбоките“ подходи се предполага, че системата притежава подробни знания за думите.

[редактиране] Имена

В много ситуации за системата за машинен превод е трудно или невъзможно да различи кои думи са имена или съкращения, които трябва да бъдат транслитерирани, транскрибирани или прехвърлени без промяна, вместо да се превеждат.

[редактиране] Неграматичен изходен текст

Несъвършенствата на изходния текст, например правописни или правоговорни грешки, лоша пунктуация или недовършени изречения, могат да затруднят сериозно автоматичния превод.

В някои ситуации за да се подобри работата на системата за машинен превод оригиналният текст се подготвя ръчно, като например се маркират думите, които не трябва да се превеждат (имена и съкращения), отстранява се многозначността и т.н.

[редактиране] История

Същинската историята на машинния превод започва през 50-те години на 20-ти век след Втората световна война. Проведеният през 1954 г. експеримент „Джорджтаун – Ай Би Ем“ с участието на университета „Джорджтаун“ и фирмата „Ай Би Ем“ представлява демонстрация, включваща превеждането на няколко десетки изречения от руски на английски. Експериментът има успех и поставя началото на период на сериозно финансиране за изследвания в областта на машинния превод. Авторите му заявяват, че в срок от три до пет години задачата за машинния превод ще бъде решена.

Действителният напредък обаче се оказва много по-бавен. През 1966 г. създаденият две години по-рано Специален комитет по приложна лингвистика (ALPAC) към Националната академия на науките на САЩ издава доклад, станал известен като „Черната книга на машинния превод“. Докладът съдържа много скептична оценка за изследванията в областта на машинния превод и възможността за постигане на сериозен напредък в близко бъдеще. След излизането му финансирането на изследванията в тази област в САЩ (и донякъде в СССР и Великобритания) намалява драстично. В Канада, Франция и Германия обаче разработките продължват.

През 1970 г. ВВС на САЩ внедряват системата Systran, последвани през 1976 г. от Европейската комисия. През 1977 г. в Канада се внедрява системата METEO, разработена от университета в Монреал, която превежда климатични прогнози от английски на френски и работи и до днес, превеждайки по около 80 000 думи на ден или 30 милиона думи на година. В Европа от 1970 до 1994 г. се работи по основания и финансиран от Европейската комисия проект Eurotra за превод между езиците на Европейската общност. Проектът не успява да достигне до практически използваем продукт, но работата по него повлиява положително на изследванията и разработките в областта на МП в отделните страни – участнички.

В края на 80-те години увеличаването на изчислителната мощност и поевтиняването на компютрите предизвиква интерес към статистическите модели за машинен превод и превода чрез примери. След средата на 90-те години вследствие поевтиняването и усъвършенстването на компютрите се наблюдава бурно развитие и поява на множество висококачествени комерсиални продукти в областта на машинния превод. С напредъка на технологиите за разпознаване и синтез на говор започват изследвания за превод на реч в реално време. В Интернет се появяват сайтове за автоматичен превод, например услугите Translate на Google и Babelfish на AltaVista, които ползват Systran.

Сред българските програми за машинен превод са Translat (за превод от английски и немски на български и обратно), Bultra (за превод от английски на български) и WebTrance (за превод между английски, френски, испански и български).

[редактиране] Качество на машинния превод

Разработени са различни методики за оценяване работата на системите за машинен превод. Най-старият подход включва хора – преводачи, които определят качеството на превода. Сред по-новите методи, вече автоматизирани, са BLEU, NIST и METEOR.

Съвременните системи за машинен превод не са в състояние да конкурират хората – преводачи по качество на превода, особено при текстове в художествен или разговорен стил. В повечето случаи преведените от тях текстове могат да се използват само за бегло запознаване с темата на текста, но не и за пълно разбиране на смисъла.

При някои специализирани приложения обаче машинният превод вече е в състояние да замени човешкия до голяма степен (например при превода на климатични прогнози или технически упътвания, където използваният набор от думи и изразни средства е силно ограничен).

[редактиране] Програми и сайтове за машинен превод

  • Поддържащи български език:
    • WebTrance – превод между английски, френски, испански и български; има и безплатна версия, както и възможност за безплатен онлайн превод чрез сайта
    • Bultra – превод от английски на български, възможност за онлайн тест в сайта
    • Translat – превод между немски/английски и български
    • Онлайн преводач – използва InterTran; превод между 29 езика, вкл. български
    • Translator BG – Портал за онлайн преводи
  • Неподдържащи български език:
    • Babel Fish – безплатен онлайн превод
    • Google Translate – безплатен онлайн превод
    • Systran – превод между множество езици, вкл. английски, френски, немски, инталиански, китайски, японски и др.; сайтът предлага и безплатен онлайн превод
    • WorldLingo – програми за МП, сайтът предлага и безплатен онлайн превод
    • Безплатен превод на уебсайтове от newstran.com
    • ПРОМТ – превод между английски и руски, безплатен онлайн превод

[редактиране] Вижте също