Amazon y más de 30 socios de la industria esperan ofrecer a los consumidores más opciones en servicios de voz. Con este fin, juntos anunciaron la Iniciativa de Interoperabilidad de Voz esta mañana, un nuevo programa para garantizar que los productos habilitados para voz, como altavoces inteligentes y pantallas inteligentes, brinden a los usuarios "opciones y flexibilidad" a través de múltiples asistentes inteligentes interoperables.
La larga lista de firmantes incluye a Baidu, BMW, Bose, Cerence, Ecobee, Harman, Logitech, Microsoft, Salesforce, Sonos, Sound United, Sony Audio Group, Spotify y Tencent; operadores de telecomunicaciones como Free, Orange, SFR y Verizon; proveedores de soluciones de hardware como Amlogic, InnoMedia, Intel, MediaTek, NXP Semiconductors, Qualcomm, SGW Global y Tonly; e integradores de sistemas como CommScope, DiscVision, Libre, Linkplay, MyBox, Sagemcom, StreamUnlimited y Sugr. (Notablemente ausente de la lista están Google y Facebook). Todos se han comprometido a adoptar enfoques tecnológicos similares en el futuro, ya sea construyendo productos habilitados para voz o desarrollando servicios de voz y asistentes propios.
La Iniciativa de Interoperabilidad de Voz está organizada en torno a cuatro principios principales, el primero de los cuales es desarrollar servicios de voz que funcionan "sin problemas" con otros al tiempo que preservan la privacidad y seguridad del consumidor. Además, los miembros buscarán construir dispositivos habilitados para voz que admitan múltiples palabras de activación simultáneas e integrar múltiples servicios de voz en un solo producto. Finalmente, trabajarán para acelerar el aprendizaje automático y la investigación de IA conversacional para mejorar la amplitud y la calidad de los servicios de voz.
En última instancia, explicó el fundador y CEO de Amazon, Jeff Bezos, en un comunicado, el objetivo es permitir que los clientes disfruten de las habilidades y capacidades únicas que ofrece cada servicio de voz en una variedad de dispositivos, desde Alexa y Cortana hasta Einstein Voice Assistant de Salesforce y cualquier número de plataformas emergentes. Para lograrlo, los proveedores de hardware participantes desarrollarán productos y servicios que faciliten a los OEM admitir múltiples palabras de activación, mientras que ellos y otras compañías trabajan con investigadores y universidades para desarrollar algoritmos que permitan que las palabras de activación se ejecuten en dispositivos portátiles de baja potencia. .
"Múltiples palabras de activación simultáneas ofrecen la mejor opción para los clientes", agregó Bezos. “Enunciado por enunciado, los clientes pueden elegir qué servicio de voz admitirá mejor una interacción particular. Es emocionante ver que estas compañías se unen en pos de esa visión ”.
Amazon dice que se revelarán detalles adicionales y dispositivos compatibles en los próximos meses.
El lanzamiento de la Iniciativa de Interoperabilidad de Voz se produce después de que Microsoft y Amazon llevaron a Alexa y Cortana a todos los altavoces Echo y usuarios de Windows 10 en los EE. UU., Después de la formación de una asociación que se hizo pública por primera vez en un anuncio conjunto con el CEO de Microsoft Satya Nadella y Bezos . Cada uno de los asistentes trajo características únicas a la mesa. Cortana, por ejemplo, puede programar una reunión con Outlook o recurrir a LinkedIn para informarle sobre las personas en su próxima reunión. En cuanto a Alexa de Amazon, tiene más de 90,000 aplicaciones de voz hechas para abordar una amplia gama de casos de uso.
Por separado, Facebook anunció recientemente el AI Language Research Consortium , una comunidad de socios que, según la compañía, "trabajará en conjunto para avanzar en las áreas de investigación prioritarias" en PNL. A través de la financiación y la investigación anual del taller, se pretende fomentar la colaboración para abordar tareas desafiantes como el aprendizaje de representación, la comprensión del contenido, los sistemas de diálogo, la extracción de información, el análisis de sentimientos, el resumen, la recopilación y limpieza de datos y la traducción del discurso.