Informática e Internet
Aprendizaje y discriminación

Procedimientos informáticos para reconocer forma y significado

Reconocimiento de textos e imágenes por ordenador
Por Octavio Ortega, en 10 de Junio de 2009

Buscar una forma es a veces simple si ésta está descrita por una fórmula matemática (función), o más compleja si se trata de caracteres, impresiones o contornos.

Se trata siempre de asociar una etiqueta a una clase de datos, y en consecuencia establecer estas clases de antemano (fase llamada “de aprendizaje” que se efectúa generalmente con ayuda de un conjunto de ejemplos) después de asignar datos (por ejemplo una carta escrita en cursiva- antes por supuesto de haber sido numerdas en función del escritor), a tal clase (la letra del alfabeto, sería la fase de “reconocimiento”).

Puede también producir la posibilidad de que una forma desconocida deba asignarse a una clase (fase llamada “de análisis”), en cuyo caso es necesario validar la decisión (que es aquí una “discriminación” más que una “caracterización”) a partir de los “conocimientos” ya aprendidos.

¿Cómo discriminará un sistema de inteligencia artificial dos elementos tan semejantes?

¿Cómo discriminará un sistema de inteligencia artificial dos elementos tan semejantes?

Hacia atrás, es a menudo necesario por supuesto aislar en primer lugar las formas de su contexto (es la segmentación o delimitación, y finalmente otra forma por reconocimiento). Posteriormente, algunos procedimientos de control deben estar previstos, por ejemplo introduciendo un cierre en el proceso que, a raíz por ejemplo del resultado de la fase de reconocimiento, invalida total o parcialmente el trabajo de segmentación inicial.



El aprendizaje permite obtener una base de conocimientos, generalmente de clases jerarquizadas (palabras luego caracteres, curvas cerradas luego cónicas luego elipses, entre otros ejemplos que me vienen a la cabeza), pero la parte fundamental de la dificultad viene en la formalización de la “semejanza” (que caracteriza el hecho de que dos datos pertenecen a la misma clase, o al contrario, si “no se parecen”, a dos clases diferentes): cuando se toma un referente (prototipo) al cual comparar datos (pattern matching), se obtiene un manera de medir esta semejanza.

La capacidad de un programa informático “para entender” una imagen (aislar sus características y porqué no: “incluirlas” al analizarlas) está conectado con la inteligencia artificial bautizada por los anglosajones como Computer Vision o a veces, en la rama de la óptica aplicada: Machine Vision.

Se basa en un conjunto de técnicas y procedimientos, las primeras utilizadno teoremas matemáticos como el método bayesiano (que se encuentra también en otros ámbitos de la informática como el filtrado de spam). El método bayesiano se corresponde con una forma de adquisición de conocimientos (aprendizaje) que utilizan la ley enunciada por Thomas Bayes (1702-1761): se asocia probabilidades a un elemento que se pretende reconocer (por ejemplo, formas o palabras características de los emails de spam en nuestro ejemplo), pero este probabilidad es inferida a partir de elementos de conocimiento; lo que hace que las probabilidades de acierto sin conocimiento previo de modelos similares resulte un fracaso.

Pongamos otro ejemplo: dos imágenes compuestas de círculos y líneas, pero la primera tiene tres veces más círculos que líneas mientras que la segunda tiene tantos círculos como líneas.

La tarea asignada al ordenador consiste en distinguir la imagen 1 de la imagen 2, sabiendo sus propiedades de diferentes maneras. El procedimiento algorítmico consistirá en extraer una forma y comparar. El teorema de Bayes nos da el resultado exacto: de 0,5 (cada 2 oportunidades), la probabilidad de que hacierte es de 0,6. Es pues esta última cifra, y no la primera, la que es asociada al elemento. Y así sucesivamente, lo que le permitirá finalmente distinguir clara de manera las dos imágenes.

Transformada de Hough

Transformada de Hough

La transformada de Hough se produce en la fase de extracción: se basa en el idea de que en cada punto de una imagen, un infinidad de líneas “de potencial” pueden pasar, cada una con una orientación que le es consustancial al punto, y que es posible de dé crire (allí se produce la transformación) un selección de estas líneas de potenciales (aquéllas que, a priori, pasan por el mayor número posible de puntos de la imagen) por una curva sinusoidal, consustancial a cada punto.

La comparación de estas curvas permite validar cuáles son las líneas que efectivamente, pasan por el mayor número de puntos de la imagen, y en consecuencia determinan las formas.

En comparación con la imagen, el reconocimiento de sentido en un texto se basa en un principio mucho más simple, ya que un texto es, en informática, perfectamente segmentable , y se presta fácilmente a la estructuración, es decir, la elección estandarizada de un conjunto de normas que determinan o asocian tales conjuntos de palabras un sentido claro en un contexto preciso.

¿“Basta con eso”? Ya que el trabajo sigue siendo inmenso: un enorme número de documentos no obedecen a ninguna estructura. Pero la estructuración gana terreno bajo la presión de la apertura: red interna, Internet, la Red se acostumbra a la investigación, incita pues al ajuste, y aboga finalmente por la estructuración. El consorcio W3C, que vela por el establecer un corpus de normas para la Red, ha dado varias vueltas al problema y su respuesta es la red semántica, un conjunto de especificaciones prometedoras pero aún experimentales en su mayoría.

La ontología se distingue del “vocabulario” (cuyo objetivo consiste en etiquetar, pero sin incluir una organización lógica de los términos dé terminados), de la “taxonomía” (que organiza el vocabulario bajo una forma especializada), y del “thesaurus” (taxonomía ampliada por la introducción de vínculos entre términos “en informe”).

En efecto, la ontología añade al thesaurus una formalización explícita de las relaciones creadas entre diferentes términos del vocabulario. El lenguaje RDF cumple por ejemplo este papel formal.

Todo lo que está en juego es construir una ontología: que se trate de esta forma “de dar sentido” a una página de Internet, una ficha de un producto o cualquier otro texto, el objetivo último es favorecer interacciones automáticas entre máquinas (servidores eed y robots de motores de búsqueda por ejemplo).

Al fin y al cabo, se trata de volver a poner en el candelero el término “ontología”, etimológicamente ciencia del estar o, para Aristoteles y Platón, la “ciencia del estar en tanto que se está”.

Comentar | Trackback

Comentarios de “Procedimientos informáticos para reconocer forma y significado”

Aun no se han realizado comentarios.

Deja tu comentario

 

 

 


 

Previsualización del Comentario

  



Responde la encuesta y participa en nuestros sorteos

 

 

  • AlojaliA, Alojamiento Web: Empresa alojamiento web, registro de dominios, revendedores y servidores dedicados tanto en España como en el Reino Unido. Servicio garantizado por escrito.
  • Hosting Merkaweb.com ofrece servicios profesionales de hosting, registro de dominios y diseño de página web.

Secciones

Canales

Sindicación

Añade este blog a tu lector de feeds

¿Qué es un lector de feeds?

Correo Electrónico:

Red de Blogs SmallSquid

Enlaces de Interés

© Copyright 2010, SmallSquid.com. Red de blogs, SEO y Webs 2.0

SmallSquid.com está gestionado con WordPress

Creative Commons - Some Rights Reserved
 
Un proyecto realizado por Blogestudio
Cerrar
Envíalo
Powered by ShareThis