Al igual que la tecnología de
reconocimiento de voz y la
traducción automática, el reconocimiento de imágenes funciona mediante el aprendizaje automatizado basado en ejemplos. Afortunadamente para nosotros, la web tiene una infinidad de imágenes de distintas cosas, y la mayoría cuenta con información acerca de lo que se puede ver en la imagen. Por otro lado, mientras más popular sea algo, digamos un monumento, o una obra de arte, más imágenes habrá en la web y tendremos una mayor probabilidad de que nuestro algoritmo las reconozca.
Les explicaré brevemente cómo funciona el reconocimiento de imágenes: todo comienza identificando puntos de interés en una imagen – los puntos, líneas y patrones que contrastan o hacen sobresalir a algo del fondo del la imagen. Funciona de forma similar al modo en que el ojo humano identifica los contornos mediante el contraste que generan con el fondo.
Lo siguiente es identificar cómo estos puntos se relacionan entre sí – la geometría de los puntos en conjunto. Lo podemos imaginar como una constelación de estrellas, solo que en este caso el modelo matemático que analiza estos puntos y su relación es mucho más complejo.
Por último, el sistema compara ese modelo con otros modelos dentro de una enorme base de datos. Esos otros modelos provienen de imágenes en la web que ya fueron analizadas. Entonces, busca y coteja la base de datos en busca de un modelo con el que corresponda, sin que sea necesario que empalmen perfectamente. De hecho, es importante que el sistema sea flexible, para que no importe tanto si la imagen está volteada, reducida o ligeramente torcida – tomando en cuenta que diferentes fotos de un mismo objeto serán distintas. Por ejemplo, el
Taj Mahal seguirá teniendo la misma geometría básica, sin importar que lo hayan fotografiado desde ángulos ligeramente distintos. Cuando Google detecta al modelo que mejor corresponde con la imagen, puede adivinar que probablemente se trate del Taj Mahal.
El asunto de hacer “una pregunta” que en realidad es solo una imagen resulta algo profundo. Hemos ido más allá de las búsquedas basadas en sólo una cadena de texto. Ahora, pueden presentarle una imagen a Google y esperar obtener información relevante al respecto, pero, ¿cuál es la mejor respuesta a una pregunta que es solo una imagen? Por ahora, podemos relacionar imágenes con texto, sin embargo existe mucho que hacer para entender el verdadero significado que una imagen puede tener. Es ahí donde nuestra investigación en temas de inteligencia artificial pudiera ayudarnos.