Audiobox: ya es posible probar la IA para clonar voces de Meta

como usar audiobox

La Inteligencia Artificial sigue avanzando a pasos agigantados y está imparable. Si habíamos subido cosas sobre programas que generan video sólo marcando textos, ahora Meta acaba de dinamitarlo todo con Audiobox, el programa para clonar y crear sonidos fiables desde cero a través de la IA.

Si quieres saber más cosas sobre Audiobox, cómo se generan las voces de la IA y los riesgos que puede conllevar esta tecnología, te aconsejamos que sigas leyendo este artículo.

¿Qué es Audiobox?

audiobox

Audiobox es el servicio de Meta para poder generar voces de forma generativa, imitando otras que ya existen. Es decir, es un “clonador” de voz por IA que además resulta bastante fiable.

No es la primera vez que la compañía coquetea con esta idea, ya que hace un tiempo lanzó Voicebox, pero bien es cierto que no llegó a ser ni tan avanzado ni tan completo como esta otra solución.

Con Audiobox, Meta comenta que se pueden grabar voces desde cero y clonarlas en unos segundos, pero para hacerlo el usuario debe grabarse a sí mismo recitando un texto en concreto.

Esto se hace porque es un texto que está más que estudiado y permite obtener matices de la voz concretos, además de que es una manera de evitar la suplantación de identidad y que venga cualquier hijo de vecino y te clone la voz, básicamente.

A día de hoy, Audiobox es capaz de hacer los siguientes hitos:

  • Generar paisajes sonoros a partir de texto: por ejemplo “recreame un camino de la Toscana con coches antiguos y pájaros de fondo”
  • Creación de audios con un tono y ritmo concreto: “genérame una voz de un niño con tono agudo y nasal”
  • Asocia una voz a una característica del entorno: “simula que ese niño está dentro de una caverna con eco”

¿Cómo se clonan las voces a través de la IA?

clonar voces con audiobox

El proceso de clonación de voz utilizando la inteligencia artificial no dista mucho de cualquier método de IA que existe hoy en día en el mercado, basándose en la arquitectura Transformer, de la que hemos hablado en este otro artículo.

La arquitectura Transformer lo que hace es permitir que el modelo a analizar se centre en partes específicas de la entrada cuando realiza tareas. La atención se calcula mediante pesos asignados a diferentes partes de la entrada, y estos pesos se aprenden durante el entrenamiento.

Imaginemos una cadena de montaje, donde un operario recopila la voz, el otro la procesa, otro la analiza y así hasta que se hace un clon exacto. Pues así es como funcionaría la arquitectura Transformer aplicado a la generación de voz con la IA. Si nos centramos en los pasos, serían estos:

Recopilación de datos

Se necesitan grabaciones de audio extensas de la persona cuya voz se va a clonar. Cuanto más extenso y variado sea el conjunto de datos, mejor será el modelo resultante.

Preprocesamiento de los mismos

Las grabaciones de audio se procesan para extraer características relevantes, como tono, entonación, velocidad, y otras características que definen la voz.

Modelos de aprendizaje profundo:

Se utilizan modelos de aprendizaje profundo, como las redes neuronales recurrentes (RNN), para aprender patrones complejos en los datos de voz. Estos modelos pueden ser entrenados para capturar la variabilidad y las sutilezas de la voz.

Entrenamiento del modelo

El modelo se entrena utilizando el conjunto de datos recopilado. Durante el entrenamiento, el modelo ajusta sus pesos y parámetros para minimizar la diferencia entre la voz generada y la voz real del hablante objetivo.

Generación de la voz

Una vez entrenado, el modelo puede generar voz sintética que imita la voz original. Puedes proporcionar texto como entrada, y el modelo generará la voz correspondiente.

¿Cómo podemos usar Audiobox en España?

Para usar este nuevo servicio en España simplemente tendremos que acceder a la web de Audiobox, registrarnos y ya podremos usarla desde el ordenador. Eso sí, tendremos ciertas salvedades que debemos conocer:

  • De momento sólo funciona con audio en inglés, ya que es una beta
  • Es probable que el resultado final sea algo robótico, cosa que es normal porque aún no está del todo pulida.

¿Tiene riesgos el uso de programas como Audiobox?

Los hackers podrían usar Audiobox para cometes crímenes digitales

Los hackers podrían usar Audiobox para cometes crímenes digitales

La clonación de voz con inteligencia artificial presenta varios riesgos y desafíos éticos y sobre todo ligados a la condición del ser humano, ya que no todo el mundo va a hacerle un buen uso a este tipo de tecnologías, que tienen su peligro en malas manos. En concreto, los grandes riesgos que le vemos al uso de un programa de este tipo son los siguientes:

Fraude y suplantación de identidad

La capacidad de clonar voces podría ser utilizada para llevar a cabo fraudes y suplantación de identidad en llamadas telefónicas, mensajes de voz o grabaciones de audio.

Esto podría tener consecuencias graves en términos de seguridad y confianza, sobre todo el una época donde se popularizan más los trámites telemáticos o la contratación de productos a través del teléfono.

Desinformación y manipulación

La tecnología de clonación de voz podría utilizarse para crear grabaciones de audio falsas con el objetivo de difundir información errónea o manipular opiniones públicas. Esto plantea preocupaciones en el contexto de la desinformación y la manipulación de la realidad.

Esto podría afectar a individuos, empresas o incluso figuras públicas, que podrían ver sus voces utilizadas para generar contenido falso e interesado, como podría ser un audio de un Presidente admitiendo sobornos cuando nunca lo hizo en la vida real, por ejemplo, con la repercusión legal y mediática que ello conllevaría.

Phishing y ingeniería social

La clonación de voz podría utilizarse en ataques de phishing y de ingeniería social, donde los atacantes intentan engañar a las personas haciéndoles creer que están interactuando con alguien de confianza, a fin de intentar obtener los datos de los mismos para cosas no lícitas.

Imaginemos unos hackers que le pidan a una persona que le haya un trasferencia rápida o un Bizum con la voz de un hijo porque necesitan un ingreso rápido, o que le pidan un momento la clave del banco para “ver algo de la cuenta”, por ejemplo.

Problemas legales y responsabilidad

La utilización indebida de la clonación de voz podría generar problemas legales y desafíos relacionados con la responsabilidad, ya que determinar la autenticidad de las grabaciones de voz podría volverse más complicado. Y si bien antes ya hacían falta peritos y expertos para ver las autenticidades, ahora habrá que tener en cuenta el factor de voces clonadas de cara a juicios.

Por nuestra parte, sólo queda esperar a ver en qué evoluciona esto y si Meta se pondrá las pilas con la materia de seguridad. De momento han anunciado que el proyecto será de código cerrado, por lo que aconsejamos una cierta precaución a la hora de dar prestar al uso de nuestra voz para esto, ya que no tenemos claro exactamente el uso que le dará la compañía a los datos recogidos.


Sé el primero en comentar

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Actualidad Blog
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.