¿Cómo diseñar interfaces de usuario por voz?

Según los datos que revela Google en este artículo, el 52% de las personas que tienen un asistente de voz en casa lo mantienen una zona común y el 62%, de los que lo usan regularmente, afirman que comprarán algo a través de él en el próximo mes.

¿Qué es una interfaz por voz?

Las interfaces de usuario por voz (en inglés VUI, Voice User Interface) son las que permiten interactuar a través de comandos de voz como por ejemplo los asistentes virtuales: Siri, Alexa o Google Assistant. Los que no requieren ni contacto visual ni manual.

Estos asistentes virtuales están presentes en aparatos que hoy en día están muy de moda y además, son muy accesibles dado que se pueden adquirir en cualquier comercio a un precio muy razonable. Teniendo en cuenta estos factores, la tendencia del mercado es favorable y todo apunta a que esta tecnología seguirá creciendo y evolucionando. Dado que además de por sí mismos, también están presentes en otros dispositivos tecnológicos como móviles, televisiones, relojes digitales o aparatos de limpieza.

Ejemplo de un asistente de voz integrado en un smartphone. De @Hero en Dribbble.

¿Qué esperan los usuarios de de las interfaces por voz?

Los humanos como seres sociales que son, muestran cierto interés en comunicarse con este tipo de interfaces. No obstante, la comunicación con la tecnología no es la misma que la interpersonal. Por ello, es lógico que surja la duda de hasta dónde serán capaces de comprendernos.

Para que estos dispositivos funcionen correctamente, deben ofrecer respuestas naturales. No obstante, todavía es complicado que puedan desenvolverse ante excesos de información o con diálogos demasiados escuetos.

Es habitual que los usuarios que interactúen con estos dispositivos esperen o pretendan superar sus expectativas. Pero, es importante explicar que las interfaces por voz están diseñadas para resolver tareas cortas y específicas. Claros ejemplos de esto son: pedir comida a domicilio, llamar a alguien por teléfono, preguntar sobre el tiempo o una ubicación, conocer la noticias, escuchar una canción o la radio o programar una alarma y largo etcétera.

Ejemplo de un usuario haciendo un pedido por voz. De @Bernadetta Pastuszka en Dribbble.

¿Cómo diseñar una interfaz por voz?

A la hora de diseñar una experiencia para los usuarios es imposible seguir las mismas pautas que se aplican a las interfaces gráficas dado que carecen de recursos visuales. Esto impide que los usuarios puedan navegar y reconocer por sí mismos sus opciones. Por ello es importante que el dispositivo explique a los usuarios sus posibilidades a través de un diálogo constante. Sin embargo, la información que se aporte debe estar bien medida, dado que debe poder ser recordada con facilidad.

Informar a los usuarios sobre las funcionalidades disponibles

A pesar de que los usuarios desconocen todas las posibilidades que brindan estos dispositivos es común que se lancen a hacer preguntar o peticiones. En esos momentos, es cuando la interfaz debe brindar a los usuarios las diferentes opciones. Por ejemplo, hablando sobre una aplicación meteorológica se podría mencionar: “Puede solicitar el tiempo para hoy o un pronóstico semanal”. O en una aplicación de mapas se podría decir: “Puedo encontrar la peluquería más cercana o trazar una ruta hasta el trabajo”.

De este modo, el dispositivo confirma que ha entendido la petición del usuario y proporciona diferentes opciones finales mediante una respuesta rápida.

Ejemplo de una conversación con un asistente de @Dannniel en Dribbble

Ubicar a los usuarios

En las interfaces visuales se utilizan muchos recursos para ubicar al usuario, explicar dónde se encuentra y el camino que ha realizado hasta llegar ahí. Un claro ejemplo de esto son las breadcrumbs o migas de pan. Este mismo recurso debe estar presente en las interfaces por voz. Porque no solo se indica al usuario donde se encuentra sino que también se informa de la funcionalidad que está utilizando.

Un ejemplo de esto sería ante una pregunta sobre el tiempo responder no solo la temperatura y las condiciones climatológicas, sino dar un contexto más global al usuario: “El pronóstico de tiempo para hoy es soleado, hasta 24ºC”.

Animación de @DenisChikita en Dribble

Limitar la información proporcionada

Como se ha comentado anteriormente, la cantidad de información que los usuarios son capaces de comprender y recordar es limitada. Por ello, los diseñadores del asistente Alexa de Amazon no recomiendan ofrecer más de tres opciones diferentes en una interacción. Además, comentan que si se dispone de una lista larga de opciones, es recomendable agruparlas y proporcionar al usuario las más populares. No obstante, también se puede comunicar al usuario que hay más opciones disponibles y que puede preguntar por ellas. Los expertos destacan que no son partidarios de enumerar una lista de opciones como por ejemplo: los robots de los contestadores automáticos.

Utilizar señales visuales

Siempre que sea posible, es recomendable indicar al usuario de alguna manera visual que está siendo escuchado. Dado que si únicamente el sistema se comunica con el usuario por su voz, hasta que este no haya terminado de hablar no sabrá si va a recibir una respuesta por parte del dispositivo. Los indicativos visuales como las luces leds permiten al usuario saber que su mensaje está siendo registrado.

Animación de @RockEagle en Dribbble

Dar un giro a tus prototipos

Los wireframes tal y como se conocen no tienen sentido para las interfaces por voz y deben reinventarse. En los prototipos se debe configurar conversaciones de prueba para diferentes roles hasta dar con la mayoría de posibilidades. Además, en este tipo de diseños conversacionales el objetivo principal es crear interacciones basadas en la forma en la que las personas hablan y no en cómo escriben. Por ello es recomendable comenzar diseñando historias de usuario así como elaborar conversaciones de prueba entre los usuarios y el sistema para diferentes escenarios.

Además, es importante tener en cuenta posibles interrupciones que a los usuarios les puede suceder mientras estén interactúando con el dispositivo. Del mismo modo que en el diseño de interfaces visuales, el testing sigue siendo una herramienta clave dado que permite:

Recoger diferentes formas de hablar y de expresarse.
Detectar los problemas más relevantes.
Identificar las conversaciones o comportamientos más habituales.

Sorprender a los usuarios

Ante mensajes complicados de entender, los dispositivos pueden no funcionar correctamente. Por ello, tanto en la resolución de errores como en la proporción de ayuda a los usuarios es interesante lanzar mensajes con cierta elegancia y sorprendiendo al usuario. Para tratar de guiarlo hacia una funcionalidad que sí pueda realizarse y conseguir que el usuario la solicite.

Todavía hay muchas maneras de diseñar una buena experiencia de usuario para una interfaz por voz. Aunque, como en las interfaces gráficas, el usuario final debe prevalecer como pieza central del diseño. No obstante, en este ámbito no solo hay que pensar en cuáles son sus necesidades sino también en su contexto social y su manera de expresarse para que nos ayuden a elaborar conversaciones y diálogos naturales.

¿Quieres más información sobre nuestros servicios de UX/UI?

Contacta con nuestro equipo de User Research, User Experience y User Interface

¿Cómo diseñar interfaces de usuario por voz?

Conoce cómo podemos ayudarte a mejorar la experiencia de tus usuarios.

¿Qué es una interfaz por voz?

¿Qué esperan los usuarios de de las interfaces por voz?

¿Cómo diseñar una interfaz por voz?