Word Speech Recognition

Reconocimiento de voz de palabras aisladas
mediante red neuronal convolucional

II-2023
Introducción
• Muchos sistemas de última generación todavía luchan con acentos,

pronunciación, articulación, velocidad y ruido. Por lo tanto, la
motivación para esta investigación es construir un sistema
independiente del hablante.
Objetivo
• Diseñar y desarrollar un
sistema de reconocimiento Clasificar y reconocer diez
de voz preciso para un palabras, entre ellas identificar
conjunto de palabras desconocidas , los silencios y el
predefinidas recopiladas de ambiene de fondo
clips de audio cortos.
Sin importar acentos, pronunciación,
articulación, velocidad y ruido se desarrolló un
Sistema independiente del hablante por medio
de :
Proceso de reconocimiento de voz

Trabajos Relacionados
Las investigaciones para el Reconocimiento de voz de palabras
aisladas fue evolucionando a través del tiempo hasta que se determinó
que el mejor método para lograrlo fue implementar el uso de CNN que
supero a varios otros modelos
CNN > DNN

• La investigación se centró en desarrollar varios modelos CNN
Con 2 modelos principales
modelo 1D-Convnet modelo 2D-Convnet
Matriz de Matriz de 2x2 pixel

1x2 pixel
Metodología
• A. Dataset Description:
Es un conjunto de archivos de audio de un segundo (.wav), cada uno que contiene
una palabra hablada en inglés. Estas palabras son pronunciadas por una amplia
variedad de diferentes hablantes. Los archivos están organizados en carpetas,con
cada nombre de directorio etiquetando de la palabra hablada
El conjunto de datos contiene 64.727 Contiene un grupo de archivos
archivos de audio de 30 palabras cortas background noise, o ruido de fondo
que son un grupo de archivos de audio
como: largos que se pueden mezclar para
”yes”, ”no”,”up”, ”down”, ”left”, ”right”, ”on”, simular el ruido de fondo durante el
”off”, ”go”, ”stop”,etc entrenamiento.
El objetivo es clasificar estas

palabras clave
La clase ‘’silence’’ se Otras palabras están etiquetadas como “unkown" y

creo al segmentar los se utilizan para ayudar al modelo a aprender una
archivos en 1 seg representación de todas las palabras que no están
dentro de las 10 palabras para ser clasificados.
B. Feature Extraction
Se utilizaron dos métodos diferentes de extracción de características
Espectrograma Mel
magnitud
Frec
TIEMPO
Para construir un espectrograma

• la señal de audio se divide en segmentos de igual longitud.
• La transformación (STFT) se calcula para cada cuadro.
• Se aplica logarithmic Mel-Scaled filterbank (filtros logarítmico Mel-Scaled
)a los fotogramas transformados de Fourier
MFCC("Mel-Frequency Cepstral Coefficients" )
La escala Mel es usada para representar cómo Cepstral Coefficients son el resultado
los seres humanos perciben la diferencia entre de aplicar una transformada de
las frecuencias de audio. Fourier inversa al logaritmo del
espectro de potencia.
Representa un espectro de potencia de corto plazo de un clip de audio basado

en la transformada de coseno discreto del
C. Convolutional Neural Network
Consta de cuatro operaciones principales;
• Convoluciones
• no linealidades,
• pooling (agrupación)
• Fully Connected laye (se conectan todas las capas).
La agrupación de capas muestra cada mapa de características de forma
independiente.
Las capas convolucionales constan de un conjunto de filtros

aprendibles. Cada filtro se aplica de forma independiente sobre
Cada capa tiene una los datos de entrada, creando un mapa de características de
información en concreto salida para cada filtro.
C. Análisis y resultados de la capacitación.
• Modelo 1D-convnet.
• Las entradas del modelo son formas de onda sin procesar con una
frecuencia de muestreo de 8000 Hz para reducir los cálculos, los
resultados fueron buenos con una precisión de entrenamiento del
92,22% y una pérdida de entrenamiento de 0,3097.
La Figura muestra el gráfico de precisión de entrenamiento y validación para este modelo en el conjunto de
datos.
2.
• Modelo 2D-convnet en el que se utilizaron dos métodos:
• Primero el método de extracción de características del espectrograma
Mel(Se basa en la aplicación de la transformada Fourier (FFT) en cada
instante de tiempo), para la entrada del modelo, se tomó dos
opciones: entrada con una frecuencia de muestreo de 8000 Hz (para
reducir los cálculos) y entrada con una frecuencia de muestreo de
16000 Hz.
• La entrada de 8000 Hz mostró una mejora en la precisión (94,71 % de
precisión del entrenamiento y 0,1983 de pérdida de entrenamiento)
mejor que la de 1D-convert.
• Con la frecuencia de muestreo de 16000 Hz mejoró aún más la
precisión (96,85% de precisión de entrenamiento y 0,1402 de pérdida
de entrenamiento).
• En segundo lugar, se utilizó el método de extracción de características
MFCC (son coeﬁcientes para la representación del habla basados en la
percepción auditiva humana) para el mismo modelo y los resultados
fueron bastante similares al método Melspectrogram con una ligera
mejora en la precisión y la pérdida del entrenamiento.
• La Figura (a) y la Figura (b)
muestran gráficos de precisión de
entrenamiento y validación para
este modelo en el conjunto de
datos.
• Se puede observar que la curva
de validación en el modelo MFCC
[Figura 7 (b)] tiene pocas o
ninguna fluctuación en
comparación con el modelo de
espectrograma Mel [Figura 6 (b)].
Esto muestra que el modelo
MFCC es más robusto y, en
general, el más confiable.
D. Resultados y análisis de las pruebas
• Está claro que el modelo MFCC con frecuencia de muestreo de 16000
Hz logró la precisión más alta del 96,19 %, mientras que el modelo
1D-convnet tiene la precisión más baja del 91,03 %.
Conclusión
• Los resultados muestran que esta investigación se puede utilizar
eficazmente para que el reconocimiento de voz de palabras aisladas
proporcione resultados precisos de los dos modelos utilizados el
mejor modelo (2D-convnet con MFCC-16000 Hz) se entrenó utilizando
22720 muestras de entrenamiento de audio y se validó utilizando
2525 muestras de validación de audio.
Replicación:
• La replicación del paper estará basado en la implementación de
• Google colab
• TensorFlow de Google: para la creación, entrenamiento e
implementación de modelos de aprendizaje automático
• Implementacion del dataseet con audios .wav
• Modelo CNN para el entrenamiento de la red
• Aplicación de Mel-Frequency Cepstral Coefficients para el análisis de
los espectogramas

Word Speech Recognition

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Word Speech Recognition

Cargado por

Copyright:

Formatos disponibles

Reconocimiento de voz de palabras aisladas

mediante red neuronal convolucional

• Muchos sistemas de última generación todavía luchan con acentos,

Proceso de reconocimiento de voz

CNN > DNN

Matriz de Matriz de 2x2 pixel

El objetivo es clasificar estas

La clase ‘’silence’’ se Otras palabras están etiquetadas como “unkown" y

Para construir un espectrograma

Representa un espectro de potencia de corto plazo de un clip de audio basado

Las capas convolucionales constan de un conjunto de filtros

También podría gustarte