Apps con visión por ordenador - Autor Collin Davis - roughgroove - Flickr CC
Desarrollo de Webs 7 enero, 2015

Se llama «Visión artificial», Visión por ordenador» o CV en sus siglas inglesas (Computer Vision), a la capacidad de reconocimiento de objetos de forma automatizada, con el fin de gestionar la información obtenida de forma ágil, rápida y en grandes volúmenes. Es una tecnología horizontal y por tanto con grandes posibilidades en todos los sectores.

En un artículo anterior hablamos de la lectura OCR con una aplicación móvil. Esto es, la tecnología que reconoce caracteres y por tanto entiende los textos y números impresos en cualquier superficie. La visión por ordenador es esto y da un paso más allá, pues permite reconocer rostros, paisajes, contextos, situaciones anómalas en una grabación de vídeo…

El uso de la visión por ordenador agiliza numerosos procesos sin limitación de campos: seguridad, producción, biomedicina, movilidad, control de RRHH, archivística, formación, análisis sociales, medios de comunicación…

La tecnología no es nueva. Podemos decir que desde 1995 ha ido mejorando hasta alcanzar el actual grado de perfección.

Desglosándola, observamos que esta tecnología incluye distintas fases: adquisición de la imagen (fija o vídeo), procesamiento, análisis e interpretación. Esta última permite determinar el contexto y los detalles en los que queremos fijar la atención, con el fin de tomar unas decisiones o ejecutar unas acciones de forma automatizada.

Veamos algunos ejemplos sorprendentes y veamos cómo su uso en los dispositivos móviles la hace accesible a cualquiera de nosotros.

[Tweet «La visión por ordenador automatiza procesos. Su uso en los móviles la hace accesible a todos.»]

RECONOCIMIENTO VISUAL DE OBJETOS:

Ejemplo 1:

Supongamos una gran superficie dedicada a la venta de muebles «hazlo-tú-mismo» (do-it-yourself), con un espacio dedicado a exposición y un gran almacén donde recoger las cajas de los muebles desmontados. El cliente solo debería pasear por la exposición, enfocar con el móvil aquella estantería o aquel jarrón que tanto le gusta, y el móvil reconocería el objeto y le informaría del precio y de las prestaciones, así como de la ruta exacta hasta el punto de recogida. Sí, seguro que has pensado como nosotros: ¡Adiós al lápiz de Ikea!

Habrás averiguado también que la técnica requiere escanear en 3D todo el catálogo de productos y que acepte como válidos para su identificación solo aquellas vistas unívocas (frontal y de tamaño completo, por ejemplo), descartando las otras o dando paso a una desambiguación manual.

Ejemplo 2:

Una marca de moda de mujer que escanea todo su catálogo en 2D y lanza una app que permita a las clientas enfocar con el móvil cualquier anuncio de la marca en revistas, marquesinas de bus o cualquier otro soporte.

La aplicación reconocerá al momento la prenda anunciada y le informará de todos sus detalles, así como las tiendas online o las tiendas físicas donde la puede comprar. Esto se puede combinar con funciones sociales (compartir, recomendar, «me gusta»…) o con técnicas de venta (wishlist, upselling y crosselling, que podríamos traducir como lista de deseos, ventas de gama superior y ventas cruzadas).

Sumamos ambos ejemplos: La realidad es un inmenso catálogo

A estas alturas, debemos haber llegado a la conclusión de que con las apps de visión por ordenador, la realidad física es un inmenso catálogo. Todo es susceptible de ser fotografiado, reconocido y mostrado en nuestros dispositivos móviles, listo para la venta.

[Tweet «Con las apps de visión por ordenador en los móviles, la realidad física es un inmenso catálogo.»]

ANÁLISIS MÉDICO POR IMÁGENES:

La interpretación de radiografías u otras impresiones por radiaciones para el análisis médico pueden ser confiadas a la visión por ordenador. En base a unos patrones, podemos obtener un diagnóstico generado por ordenador, no vinculante y que exigirá una validación de los especialistas en medicina.

No es arriesgado afirmar que esta tecnología tendrá su lugar en los dispositivos móviles, como podemos ver en este artículo. El uso de aplicaciones móviles en el sector de la salud es una de las tendencias más claras y descentralizará la toma de ciertas decisiones que hasta ahora se tomaban en los hospitales.

INTERPRETACIÓN DE CONTEXTOS EN UNA IMAGEN:

El reconocimiento de ciertos patrones en una fotografía puede indicar a una máquina «de qué va esa imagen»: un paisaje de playa, una fiesta con amigos, unos platos de comida… ¿Puede parecer poco útil? Unos pasos más allá se sitúa algo tan común como Google Imágenes.

Si disponemos de una imagen que muestra una catedral que nos gustaría visitar o un modelo de coche deportivo que nos ha entrado por los ojos, y no identificamos ni una ni otro, basta con ir a Google Imágenes, clicar el icono de la cámara y subir nuestra imagen. Al momento sabremos qué catedrales o qué deportivos se aproximan más visualmente.  Con frecuencia, la búsqueda da el resultado exacto.

A nivel industrial, el principal uso es la indexación de datos a partir de grandes volúmenes de imágenes o de multimedia.

RECONOCIMIENTO DE ROSTROS:

Cualquier usuario de Facebook sabe que la tecnología detecta rostros en una imagen y es capaz de ponerle nombre y apellidos, en función de las similitudes con los rostros de los amigos. Cuanta más resolución tengan las imágenes, más exacto será el resultado.

Del mismo modo opera el reconocimiento facial de las gafas inteligentes de Google. Se acabó esa incómoda sensación de coincidir de nuevo con alguien y no recordar su nombre, ni el contexto del primer encuentro. Si está memorizado como imagen (Facebook, Linkedin, Google+…) Google Glasses nos recordará quien es.

Una aplicación que compare entre 30 y 36 puntos de referencia en ambos rostros, real y archivado, dará unos resultados excelentes.

Las posibilidades no se quedan en el reconocimiento facial: en la red se pueden encontrar muchos artículos y vídeos sobre funciones que hace años catalogaríamos de ciencia-ficción:

  • Reconocimiento de personas con antecedentes penales, por la calle, por los centros comerciales… Bastaría una base de datos pública y una extensa red de ciudadanos con smart glasses que transmitan estas alertas a la policía, junto a las coordenadas geográficas.
  • Reconocimiento facial de emociones fingidas. Una app decidiría si la sonrisa de quien tenemos delante es auténtica o no.
  • Reconocimiento de personas fuera de nuestros círculos, en base a sus perfiles en redes sociales. Este vídeo nos muestra lo que ya sabemos: Facebook no es el álbum de fotos universitario que fue en sus orígenes, sino el de toda la humanidad. Todos somos susceptibles de ser identificados y etiquetados en función de nuestra actividad en internet.

INTERPRETACIÓN DE VIDEOVIGILANCIA:

Una cámara de videovigilancia puede contar automáticamente las personas que acceden a un recinto (e incluso reconocer ciertos rostros, como hemos dicho, lo que permitiría el control de acceso de trabajadores a una empresa).

Puede también detectar patrones de conducta no habituales en la gente o en el contexto y lanzar una alerta reclamando una intervención humana. Pueden ser ejemplos:

  • una aglomeración excesiva en una discoteca o en los accesos a un campo de fútbol,
  • una explosión en un equipo industrial
  • unas retenciones provocadas por un coche averiado en una autopista
  • una ralentización en una cadena de montaje

Si nos centramos en las aplicacions móviles, el caso más típico es la videovigilancia de bebés. Un dispositivo fijo que enfoque a la cuna y una app instalada en el smartphone de los padres son suficientes para controlar de vez en cuando que todo sea correcto. Pero si la app detecta patrones de movimiento o llanto y lanza el aviso a los padres, el logro de los objetivos roza la perfección.

[Tweet «La visión artificial o por computador tiene innumerables campos de aplicación… y de negocio.»]

INTERFACE GESTUAL:

La conocida escena de la película Minority Report, en la que el protagonista interacciona con varias pantallas con el simple movimiento de sus brazos y manos, es un ejemplo claro de interface gestual.

En ese reconocimiento corporal se basan muchos juegos para consolas hoy en día.

VISIÓN A BORDO («ON BOARD VISION»):

Podemos llamarla «navegación asistida por ordenador» y es aquella que permite, por ejemplo, que los automóviles sean capaces de aparcar o conducir sin intervención humana. O que los drones puedan maniobrar en el aire sin percances.

La visión artificial analiza el entorno del vehículo y maniobra en función de los datos recibidos. Las variables son muchas: luminosidad, reflejos, entorno estático o dinámico, desplazamiento de múltiples objetos a distintas velocidades…

Los aplicaciones son mucho más amplias de lo que podemos pensar:

VISIÓN EN MÁQUINAS Y ROBOTS:

Similar a la anterior, pero aplicada a procesos industriales, la visión artificial permite que los robots industriales puedan detenerse si perciben ciertos patrones de conducta anómalos. O bien que ante estos, ejecuten nuevos movimientos adaptados a la nueva situación.

Entendemos esta tecnología en robots de cualquier tamaño: desde equipos de cadenas de producción automovilística hasta aparatos de laboratorio con  precisión microscópica.

VISUALIZACIÓN INTERACTIVA 3D Y REALIDAD AUMENTADA:

La realidad aumentada y la interacción con mundos virtuales es el gran futuro del ocio. Y es aquí donde los smartphones y otros dispositivos móviles tendrán todo el protagonismo.

A este tema dedicaremos más adelante un amplio reportaje, procurando dar cabida tanto al aspecto del ocio como a las aplicaciones destinadas a empresas. De hecho, el 3D y la realidad aumentada formarán parte de la domótica, de la industria y de la vida en general con tanta naturalidad como hoy las pantallas planas.

[Tweet «El 3D y la realidad aumentada serán tan habituales en unos años como hoy las pantallas planas.»]

CONCLUSIONES:

La visión por ordenador es ya una realidad y sus usos son innumerables en todos los sectores: negocios, salud, industria, sociedad…

La aceptación por parte de los usuarios es clara: resuelve problemas y lo hace de un modo rápido y eficaz. Son unos segundos ojos. Su único obstáculo, como siempre, es la privacidad.

[Tweet «La visión por computador son unos segundos ojos. Cedemos a cambio la privacidad.»]

España puede presumir de estar a la vanguardia en desarrollo de aplicaciones con visión artificial. Así lo atestiguan centros de innovación como CVC (Centre de Visió per Computador), una iniciativa nacida en 1995 de la Generalitat de Catalunya y la Universitat Autònoma de Barcelona (UAB).

Su foco en la investigación de alto nivel y su partneship con empresas desarrolladoras como Doonamis hacen que la técnica llegue a las empresas y de ellas a los ciudadanos. Dando pasos hacia las smart cities…

Doonamis Apps para empresas Blog

Crédito de la imagen: Collin Davis – roughgroove – Flickr CC

¿Interesado en nuestros servicios?
¡Pídenos un presupuesto!

Pedir presupuesto