WordNet

Na Galipedia, a wikipedia en galego.

Atención: Este artigo precisa un traballo de revisión.

Por favor vexa a lista de Artigos con problemas e mellóreo de acordo coas indicacións que aparecen nesa páxina. Cando os problemas se resolvan retire esta mensaxe e borre a páxina da lista de artigos con problemas, pero por favor non quite esta mensaxe ata que estea todo solucionado.

WordNet e un lexico semántico para a lingua inglesa. Agrupa palabras inglesas en grupos de sinonimos chamados synsets, provee definicion cortas, e almacena a distintas relaciones semanticas between these grupos de sinonimos. O proposito e dobre: producir unha combinacion de diccionario e tesauro que podese empregar dunha forma mais intiutiva, e co obxetivo de soporta-la analise automatica de textos e as apliacions da intelixencia artificial. A base de dayos e ferramentas software son publicas baixo unha licencia tipo BSD e poden ser descargadas e empregadas libremente. A base de datos tamen pode ser consultada en linea.

WordNet foi creado e mantido polo Laboratorio de Ciencias Cognitivas of Universidade de Princeton baixo a direccion lo profesor de psicoloxía George A. Miller. O seu densenrrolo comezou en 1985. Ó longo dos anos, o proxecto recibiu ó redor de 3 millons de dolares en doazóns, [principalmente de axencias gubernamentais interesadas na traducción automática.


Índice

[editar] Contidos da base de datos

No ano 2005, a base de datos conténs 150,000 palabras organizadas en 115,000 synsets para un total de 203,000 pares con significados; comprimidos ocupan arredor de 12 megabytes de tamaño.

WordNet distingue ente nomes, verbos, adxetivos e adverbios asumindo que estos son aloxados no cerebro humano dunha forma distinta. Every synset contains a group of synonymous words or collocations (unha colocacion e unha secuencia de palabras que van xuntas para formar un significado especifico, tal como "prestamo de coche"); words typically participate in several synsets. The meaning of the synsets is further clarified with short defining glosas. Un synset tipico de exemplo con glosa e:

bo, correcto, oportuno -- (o mais adecuado ou correcto para un proposito particular; "un bo momento para plantar tomatos"; "o momento correcto para actuar"; "o momento e oportuno para grandes cambios sociais")

Cada synset esta conectado a outros synsets a traves de varias relacions. Estas relacions poden variar dependendo no tipo de palabra:

  • Nomes
    • sinónimos: synsets con significados similares
    • hiperónimos: Y é un hiperónimo de X si cada X é un (tipo de) Y
    • hipónimos: Y é un hipónimo de X se cada Y é un (tipo de) X
    • termos coordinados: Y é un termo coordinado de X si X é Y comparten un hiperónimo
    • holónimo: Y é un holónimo de X si X e parte de Y
    • merónimo: Y é un merónimo de X si Y e parte de X
  • Verbos
    • sinónimos
    • hiperónimo: o nome Y é un hiperónimo do verbo X se a actividade X é un (tipo de) Y
    • termos coordinados: aqueles vermos compartindo un hiperónimo
  • Adxectivos
    • sinónimos e nomes relacionados
    • antónimos: adxetivos de significados opostos
  • Adverbios
    • sinónimos e adxetivos raiz
    • antónimos

WordNet tamén proporciona o polysemy count (contador polisémico) dunha palabra: o numero de synsets que conten a palabra. Se unha palabra esta presente en varios synsets (p.ex. ten varios significados), enton tipicamente alguns significados son mais comuns ca outros. WordNet contabiliza isto a través da frequency score (puntuación de frecuencia): en alguns textos de exemplo todalas palabras foros semánticamente anotadas co synset correspondente, ademáis de contabilizado con que frecuencia unha palabra aparecia con un signficado sentido.

A interface da base de datos e capaz de deducir a forma raiz dunha palabra a partir da entrada do usuario; soamente a forma principal se almacena na base de datos.

[editar] Extructura do conecemento

Both nouns and verbs are organized into hierarchies, defined by hypernym or IS A relationships. For instance, the sense 1 of the word dog would have the following hypernym hierarchy; the words on the same level are synonyms of each other: some sense of dog is synonymous with some other senses of domestic dog and Canis familiaris, and so on. Each set of synonyms, also known as a synset, has a unique index and share their properties, such as gloss (or dictionary) definition.

 can, can domestico, Canis familiaris
    => canino, canid
       => carnivoro
         => placental, placental mammal, eutherian, eutherian mammal
           => mamifero
             => vertebrado, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   => ...

At the top level, these hierarchies are organized in to 25 primitive groups for nouns, and 15 for verbs. These groups form lexicographic files at maintenance level.

No caso de adxetivos, a organizacion e distinta. Dos segnificados principais opostos traballan como polos binarios, mestres os sinonimos 'satelite' se conectan a cada un dos principais a traves de relacions de sinonimia. Asi, as herdanzas, e o concepto de arquipos lexicograficos, non se aplican da mesma maneira que os nomes e verbos.

[editar] Limitacións

O contrario que outros diccionarios, WordNet non inclue informacion acerca da etimoloxía, pronunciacion e as formas dos verbos irregulares e conten soamente información limitada acerca do uso.

A información lexicográfica e semantica e mantida na actualidade en arquivos lexicograficos, os cales son procesados por un programa chamada muinho para produci a base de datos distribuida. Tanto o mucho como os arquivos lexicgraficos doestan disponibles libremente, pero modificar e manter a base de datos e sen dubida dificil.

[editar] Proxectos relacionados

O proxceto EuroWordNet ten producidas WordNets para varias linguas europeas relacionandoas entre elas; estas non son libremente accesibles a pesar de todo. O proxecto Wordnet Global intenta coordinar a producción e relación das WorNets en todalas linguas. Oxford University Press, que publica o Diccionario Oxford de Inglés ten anunciado plans para producir a súa propia WordNet.

O eXtended WordNet é un proxecto da Universidade de Texas en Dallas que pretende mellorar WordNet by semantically parsing the glosses, facenso asi a informacion conitada nestas definicion disponible para sistemas de procesamento automatico no conhecemento. Esta e libremente accesible baixo unha licencia similar a de WordNet.

O proxecto GCIDE produce un diccion cominando o ddionario de dominio publico Webster de 1913 con varias definicions de WordNet e material proporcionado por voluntarios. Ofrecesa baixo a licencia copyleft GPL.

The hypernym/hyponym relationships among the noun synsets can be interpreted as specialization relations between conceptual categories. In other words, WordNet can be interpreted and used as a ontoloxialexica no sentido informatico. However, such an ontology should normally be corrected before being used since it contains hundreds of basic semantic inconsistencies such as (i) the existence of common specializations for exclusive categories and (ii) redundancies in the specialization hierarchy. Furthermore, transforming WordNet into a lexical ontology usable for knowledge representation should normally also involve (i) distinguishing the specialization relations into subtypeOf and instanceOf relations, and (ii) associating intuitive unique identifiers to each category. Although such corrections and transformations have been performed and documented as part of the integration of WordNet 1.7 into the cooperatively updatable knowledge base of WebKB-2, most projects claiming to re-use WordNet for knowledge-based applications (typically, knowledge-oriented information retrieval) simply re-use it as such.

WordNet is also commonly re-used via mappings between the WordNet categories and the categories from other ontologies. Most often, only the top-level categories of WordNet are mapped. However, the authors of the SUMO upper ontology have produced a loose mapping between WordNet nouns/verbs synsets and SUMO classes (it is a loose mapping because a SUMO class may be linked to one or several "semantically close" WordNet categories). The OpenCyc upper ontology is also linked to WordNet.

In most works that claim to have integrated WordNet into other ontologies, the content of WordNet has not simply been corrected when semantic problems have been encountered; instead, WordNet has been used as an inspiration source but heavily re-interpreted and updated whenever suitable. This was the case when, for example, the top-level ontology of WordNet was re-structured according to the OntoClean based approach or when WordNet was used as a primary source for constructing the lower classes of the SENSUS ontoloxia.

FrameNet e un proxecto similar a WordNet. It consists of a lexicon which is based on annotating over 100,000 sentences with their semantic properties. the unit in focus is the lexical frame, a type of state or event together with the properites associated with it.

[editar] Ver tamén

[editar] Ligazóns externas