Corpus lingüístico

Na Galipedia, a wikipedia en galego.

Un Corpus lingüístico é un conxunto, normalmente moi amplo, de exemplos reais de uso dunha lingua. Estes exemplos poden ser textos (tipicamente), ou mostras orais (normalmente transcritas).

Chámase lingüística de corpus á subdisciplina da lingüística que estuda a lingua a través destas mostras. Este tipo de aproximación choca co enfoque chomskiano que tende a estudar a lingua a través da intuición lingüística do falante.

Esta subdisciplina, dado o volume de datos que se manexa, normalmente asóciase coa lingüística computacional, segundo esta última achégase ás aplicacións do procesamento da linguaxe natural.

Esta disciplina iniciouse en 1967 cando Henry Kucera e Nelson Francis publicaron o clásico Computational Analysis of Present-Day American English, baseándose no corpus Brown, unha compilación de inglés americano de aproximadamente un millón de palabras seleccionadas dunha ampla variedade de fontes.


[editar] Véxase tamen