Descriptors visuals
De Viquipèdia
Els descriptors visuals descriuen les característiques visuals dels continguts disposats en imatges i vídeos. Descriuen característiques elementals com la forma, color, la textura, i el moviment, entre d’altres.
Taula de continguts |
[edita] Introducció
Com a conseqüència de les noves tecnologies de comunicació i a l’ús massiu d’Internet a la societat, han fet que la quantitat d’informació audiovisual disponible en format digital, estigui aconseguint xifres realment espectaculars. És per aquest motiu, que ha sigut necessari dissenyar un sistema que ens permeti descriure el contingut de varis tipus d’informació multimèdia, per poder-los buscar i classificar.
Els encarregats de descriure el contingut, són els anomenats, descriptors audiovisuals.
Aquests tenen un bon coneixement dels objectes i fets presents en un vídeo, imatge o àudio i permeten buscar els continguts d’una manera ràpida i eficient. Aquest sistema es pot comparar amb els buscadors per trobar contingut textual. És cert, que és relativament senzill amb un ordinador trobar text, però en canvi, és molt més complicat trobar parts concretes d’àudio i vídeo. Imaginem, algú buscant una escena d’una persona feliç. La felicitat és un sentiment i no és evident la descripció de la forma, color i textura de les imatges. La descripció del contingut audiovisual no és una tasca superficial, i és essencial per a la utilització eficaç d’aquest tipus de fitxers. El sistema estandarditzat per excel·lència que explota els descriptors audiovisuals és l’MPEG-7 (Motion Picture Expert Group - 7).
[edita] Tipus de descriptors visuals
Els descriptors són el primer pas per poder trobar la connexió entre els píxels continguts en una imatge digital i allò que els humans recordem desprès d’haver observat durant uns minuts una imatge o un conjunt d’imatges. Els descriptors visuals són dividits en dos grups; els descriptors generals i els descriptors de domini específic.
- Descriptors d’informació general; contenen descriptors de baix nivell, proporcionant una descripció sobre el color, les formes i regions, de les textures i del moviment.
- Descriptors d’informació de domini específic; proporcionen informació sobre els objectes i fets que van apareixent. Un exemple molt concret seria el reconeixedor de cares.
[edita] Descriptors d’informació general
Els descriptors d’informació general, consisteixen en descriptors que cobreixen diferents característiques visuals bàsiques i elementals que són: el color, textura, forma, moviment, localització i altres. La descripció és generada automàticament mitjançant processament del senyal.
- El color és la qualitat més bàsica del contingut visual. Es defineixen cinc eines per descriure el color. Les tres primeres fan referència a la distribució del color; Dominant Color Descriptor (DCD), Scalable Color Descriptor (SCD) y Color Structure Descriptor (CSD). Mentre que les dues restants, la primera fa referència a la distribució espacial del color; Color Layout Descriptor (CLD) i l’última descriu la relació del color entre una seqüència o conjunt d’imatges; Group of frame (GoF) o bien, Group-of-pictures (GoP).
- La textura es una altre qualitat molt important per poder descriure. Es dissenya per poder caracteritzar les textures i regions d’una imatge. Observen la homogeneïtat de les regions i els histogrames dels contorns de les mateixes. El conjunt de descriptors està format per: Homogeneous Texture Descriptor (HTD), Texture Browsing Descriptor (TBD) y Edge Histogram Descriptor (EHD).
- La forma posseeix una informació semàntica molt important, a causa de què els humans son capaços de reconèixer els objectes amb només veure la seva forma. No obstant, aquesta característica només pot ser aplicada amb una segmentació similar a la que realitza el sistema visual humà, cosa que avui en dia encara no està disponible. Però si que existeixen alguns algoritmes que ens donen una bona aproximació. Aquests descriptors, descriuen les regions, contorns i formes per imatges 2D i volums 3D. Region-based Shape Descriptor (RSD), Contour-based Shape Descriptor (CSD) y 3-D Shape Descriptor (3-D SD).
- El moviment es descriu amb quatre descriptors, descrivint el moviment de les seqüències de vídeo. Aquest moviment, va associat als objectes de la seqüència o bé al propi moviment de la camera. Aquesta darrera, la informació és proporcionada pel dispositiu de captura, mentre que el resta es realitza un processament del senyal. El conjunt de descriptors són: Motion Activity Descriptor (MAD), Camera Motion Descriptor (CMD), Motion Trajectory Descriptor (MTD) i Warping and Parametric Motion Descriptor (WMD i PMD).
- La localització dels elements dins d’una imatge s’utilitza per descriure elements dins del domini espacial; Region Locator Descriptor (RLD), o bé, en el domini temporal d’una seqüència: Spatio temporal Locator Descriptor (STLD).
[edita] Descriptors d’informació de domini específic
Aquests descriptors no són simples, ja que és difícil d’automatitzar un sistema que sigui capaç de donar informació semàntica, malgrat això, cal dir, que es poden generar manualment o ser processades automàticament. Tal i com ja s’ha esmentat, l’exemple és el de reconeixement de cares.
[edita] Aplicacions dels descriptors
Entre totes les seves aplicacions, les mes importants són:
- Gràcies a la descripció dels continguts es poden desenvolupar potents buscadors o classificadors de documents multimèdia.
- Biblioteques digitals. Permeten ser buscats de manera molt detallada i concreta de qualsevol àudio, vídeo o imatge, mitjançant diferents tipus de paràmetres de cerca; des de la cerca de l’última pel·lícula on hi surt un actor conegut, fins a buscar tots els vídeos que hi apareix la muntanya Everest.
- Servei de notícies electròniques personalitzat.
- Possibilitat, d’una connexió automàtica al canal de televisió que estigui emetent un partit de futbol, cada vegada que un jugador s’acosti a l’àrea de gol, per exemple.
- filtrat i control de certs continguts audiovisuals. Per exemple, material violent o pornogràfic no apte per a certes persones. També permet l’autorització per alguns continguts multimèdia.