Escuchando a un experto, parte 3: Hablar de visión es hablar de entender el mundo

Sven Dickinson, Director del Centro de IA de Samsung en Toronto

¿Qué pasaría si el asistente personal de Inteligencia Artificial (IA) de los smartphones pudiera entender tan bien el mundo como nosotros? ¿Y qué tal pensar en un escenario en el que comunicarse con ese asistente de IA sea tan natural y fácil como interactuar con otro ser humano? Desarrollar ese tipo de capacidades es exactamente lo que el equipo del Centro de IA de Samsung en Toronto tiene en mente.

Conversamos con el Dr. Sven Dickinson, Director del Centro de IA en Toronto de Samsung, para aprender más sobre estos emocionantes campos y lo que podrían significar para el futuro.

La visión

El Centro de IA en Toronto fue el segundo centro de Samsung en ser establecido en América del Norte, bajo la dirección del Dr. Sven Dickinson, experto en visión por computadora y exdirector del Departamento de Ciencias de la Computación de la Universidad de Toronto.

En el epicentro de la investigación y el desarrollo de la IA, el Centro en Toronto se concentra principalmente en desarrollar los recursos de comprensión visual que permiten que un dispositivo Samsung entienda el mundo. Además, el equipo trabaja en interacciones multimodales: interacciones usuario-máquina que encapsulan la visión, el lenguaje y el conocimiento.

“Permitir que los dispositivos Samsung ‘vean el mundo’ a través de la visión por computadora les permite ‘establecer visualmente’ su diálogo con el usuario, proporcionando una experiencia integrada y multimodal que es mucho más natural que una basada únicamente en la visión o el diálogo“, comenta el Dr. Dickinson, cuya experiencia y conocimiento técnico incluyen la exploración de problemas relacionados con la percepción de la forma y el reconocimiento de objetos.

Al referirse a los beneficios de la tecnología multimodal, el Dr. Dickinson afirma: “Yo no debería tener que leer los manuales para averiguar qué botones presionar en mi dispositivo y en qué orden. Por el contrario, debería poder mostrarle a mi dispositivo lo que quiero y decirle lo que quiero, en un lenguaje natural que sea comprensible y ubicado en el entorno en el que vivo“.

Al hablar sobre la interacción entre la visión por computadora y las entradas multimodales, continúa: “Para lograr esta amplitud de comprensión, el dispositivo debe tener un modelo de mi comprensión del mundo, la capacidad de comunicarse conmigo de manera robusta y natural, y la capacidad de ver y comprender lo mismo que yo veo”.

Con respecto a las aplicaciones para esta tecnología, el Dr. Dickinson identifica las más interesantes como “un asistente personal con el que no solo hablemos, sino también vea las cosas como nosotros”. A propósito de la importancia de las interacciones de dispositivos multimodales, el Dr. Dickinson recuerda que al cancelar uno de los modos de comunicación (audio, habla, vista, etc.) se obstaculiza la comunicación entre dos personas, y agrega que eso también se aplica a los dispositivos personales.

Una experiencia de usuario verdaderamente mejorada es esencial

En el Consumer Electronics Show (CES) de 2019, Samsung dio a conocer su visión de Connected Living, que implica conectar los 500 millones de dispositivos que la compañía vende cada año y hacerlos inteligentes. El Dr. Dickinson destaca que el amplio portafolio de productos de Samsung será fundamental para cumplir esta visión y señala que “lo que diferencia a Samsung es que fabrica una multitud de dispositivos para el hogar, incluidos electrodomésticos digitales, televisores y smartphones. De esta forma, Samsung tiene una oportunidad única de aprovechar tales productos para brindar una experiencia de múltiples dispositivos que siga al usuario de un dispositivo a otro y de una habitación a otra. Esto ayudará a aprovechar todo el potencial de cada uno para comunicarse de manera efectiva, apoyar al usuario a ejecutar tareas específicas y aprender los hábitos y preferencias de cada persona para que la comunicación posterior no sea intrusiva, sino siempre útil“.

Al referirse al trabajo de su centro para hacer realidad la visión por computadora y la interacción multimodal, el Dr. Dickinson comenta que “la visión no se trata de comprender imágenes, sino de entender. Los sistemas de IA verdaderamente capaces deben poseer una comprensión de nuestro mundo, de su física y causalidad, de su geometría y dinámica. También deben poder modelar y comprender el comportamiento humano“. Al respecto señala que “si nuestros dispositivos pueden ver el mundo 3D en el que vivimos de la misma manera que nosotros, es decir, entender las formas, posiciones e identidades de los objetos en nuestro entorno compartido, nuestros dispositivos podrán experimentar visualmente como lo hacemos nosotros. Tal contexto visual compartido será crucial en el desarrollo de asistentes personales plenamente materializados”.

El Dr. Dickinson comenta que Samsung lidera el progreso en lo que respecta a una comprensión visual verdaderamente inteligente, e identifica la ‘base visual’ como un requisito previo esencial para los recursos de comprensión bien logrados. “Samsung abre camino cuando se trata de desarrollar una interacción humano-dispositivo que imite de manera aproximada la interacción humano-humano“, agrega. “Nuestro objetivo es proporcionar una base visual y un andamiaje de representación del conocimiento para servicios de interacción basados en el diálogo. Sin estos componentes, los usuarios se decepcionan con los servicios y los abandonan rápidamente”.

Interacciones humano-dispositivo basadas en el intercambio de información abierta

El Dr. Dickinson continúa explicando que la IA también debe poder explicarse al usuario. Agrega que, después de no realizar una tarea o proporcionar una respuesta adecuada, “un dispositivo debe poder reflejar al usuario con precisión cómo y por qué se le ocurrió esa respuesta (o la falta de ella). Idealmente, debería poder hacer un seguimiento con el usuario haciendo una pregunta o pidiéndole que ajuste su cámara u otros modos de entrada para que pueda recopilar más información y formular una respuesta adecuada“. El Dr. Dickinson señala que este tipo de apertura e intercambio de información será clave para una mayor sofisticación de las interacciones humano-dispositivo, y comenta que “lo que llamamos el dominio del ´diálogo activo y la visión activa´ es donde el sistema puede construir un modelo mental de lo que el usuario comprende y, a su vez, abrir su propio modelo mental para que el usuario comprenda los procesos de pensamiento del dispositivo“.

Los beneficios de tener la sede en Toronto

Cuando se le preguntó qué impacto tiene el hecho de estar instalados en Toronto, el Dr. Dickinson respondió que el Centro de IA disfruta de muchos beneficios debido a su proximidad con varias instituciones relacionadas de clase mundial, incluidas la Universidad de Toronto, la Universidad de York y la Universidad de Ryerson. “Estar en Toronto nos ofrece una tremenda ventaja regional“, comenta el Dr. Dickinson. “Estamos al frente de la Universidad de Toronto, alma mater del Departamento de Ciencias de la Computación (DCS), que es uno de los 10 principales departamentos internacionales de computación. Más de la mitad de los miembros de nuestro Centro de IA son profesores activos, graduados o estudiantes actuales del DCS“.

Sobre el tema de la colaboración entre los centros globales de IA de Samsung, el Dr. Dickinson relata que “los siete Centros globales trabajan para crear soluciones líderes del sector en sus respectivas áreas de enfoque y, a la vez, se coordinan para lograr el objetivo común de lograr la visión de la IA de Samsung”. Con respecto a la colaboración del Centro de IA de Toronto con otros centros de IA más distantes, el Dr. Dickinson dice: “estamos empezando a explorar posibles colaboraciones de investigación con otros centros de IA mundiales y esperamos converger en algunos casos de uso de valor para Samsung y su productos y servicios“.

via Samsung News.

Buscar este blog

TecnoBlog

Escuchando a un experto, parte 3: Hablar de visión es hablar de entender el mundo

Entradas populares de este blog

Arreglando los foquitos de Navidad

¿Cuáles son los componentes básicos de la materia?