Un poco de la historia del Lab...

Derechos Reservados © 2017; F. Lepe-Casillas / Lab ITYTY / FI /UNAM

Un poco de la historia del

Laboratorio de Proyectos Especiales

en

Instrumentación, Telecomunicaciones y Tecnologías de la Información

del

Departamento de Procesamiento de Señales



2) Principales logros en el Laboratorio antes de 1990: Proyectos de Compresión y Síntesis de la Señal de Voz realizados en el "Laboratorio de Computación".

En 1983, en lo que entonces se conocía como «Laboratorio de Computación», no se trabajaba en Computación per se. El Laboratorio daba soporte a los usuarios de los programas de Postgrado tanto en Ing. Eléctrica como de Ing. Mecánica. En el laboratorio había una enorme computadora analógica, un digitalizador y un graficador Calcomp, y una PDP 11/40 ejecutando el Sistema de Operación en Tiempo Real RT-11; con las máquinas PDP, era posible realizar proyectos de Control Digital, y de Procesamiento de Señales de Voz. Estos proyectos eran auspiciados por el Dr. Luis Andrés Buzo de la Peña, Jefe de la Sección de (Ingeniería) Eléctrica, y especialista en Señales y Sistemas de Comunicación, egresado de la Universidad de Stanford.

a) Etapas de la compresión de la señal de voz

La técnica principal usada entonces para comprimir la señal de voz ( tanto los fonemas laríngeos 1 como los fonemas sordos 2 ) consta de tres etapas: I-] Segmentación de la señal de voz en tramas cuasi-estacionarias. II-] Modelado de cada segmento mediante un filtro (digital) predictor lineal 3; a cada filtro digital 4 le corresponderá un vector de coeficientes. Se produce así una compresión analógica al representar algunos cientos de muestras de señal mediante unos 6 ó 10 coeficientes, agrupados en un vector definitorio de un filtro. Esta compresión conlleva cierta pérdida de la fidelidad por el error de predicción. Esta pérdida sucede incluso en la teoría, donde tanto las muestras de la trama como los coeficientes del filtro tienen una precisión decimal infinita. En la práctica, dentro de la memoria de una computadora, dichos valores tendrán una precisión finita. III-] La tercera etapa es la Cuantificación de los Vectores de Coeficientes; ésta es una compresión de datos parcialmente irreversible, o sea, una «compresión con pérdidas», y se añade a la cuantificado introducida al digitalizar los datos.

b) Segmentación en ventanas temporales

La señal del habla no es un proceso estocástico estacionario 5. En aquellos años, la estrategia para solventar esta variabilidad en las estadísticas de la señal fue dividirla en segmentos o tramas 6 mediante ventanas temporales o lapsos de observación, de manera que durante el lapso en que transcurre cada segmento fuera casi-válido un modelo estocástico estacionario, lo que permite "codificar”, o representar, cada segmento mediante un filtro predictor lineal excitado con una señal definida en tiempo discreto y amplitudes aleatorias con propiedades estadísticas constantes.

De los experimentos sobre segmentación realizados en esa época, uno resultó en la tesis de Licenciatura de Zhenyu Wu [b1]; un dato ligado al anterior, es que Wu obtuvo más adelante el doctorado, en la Universidad del Sur de California, con una tesis aplicable a la segmentación, pero ahora de imágenes, y además, usando aglomeración de datos 7, [b2], [b3].

Segmentación: algunos desarrollos ulteriores en otros lugares

La suposición de segmentos estacionarios de duración constante resultó insuficiente, y pronto hubo intentos por segmentar de mejor manera. En [b4] reportaron el uso de segmentos de diferente tamaño con el fin de comprimir lo más posible sin degradar demasiado la señal; la medida de distorsión empleada ahí, fue la potencia del error de predicción, es decir, como no tomaron en cuenta ni la fonética ni la lingüística, se trató, como en [b1], de segmentación estadística.

En [b5], presentaron un sistema que usa un enfoque de longitud descriptiva mínima o MDL 8 para clasificar segmentos de audio similares entre sí. Posteriormente, mostraron que estas clases permiten determinar los límites temporales de una palabra dentro de un enunciado, dado que el enunciado la contiene (es decir, sólo cuando ya se sabe que el enunciado contiene esa palabra). En los modelos MDL, descubrir palabras es únicamente un caso especial del problema general de reconocer, dentro de una secuencia, una subsecuencia que ocurre a menudo en un flujo de datos. Este método se aplica igual al ruso que al castellano, pues no requiere un conocimiento previo del idioma. La técnica MDL constituye toda una rama de estudio dentro de la disciplina de la inferencia estadística [b6].

El problema de la segmentación de la señal del habla conserva aún interés y existen publicaciones recientes con nuevas propuestas de solución [b7]. Hoy en día es más popular utilizar un conocimiento previo de los fonemas específicos de cada idioma para identificar los límites de cada palabra, es decir, hay más trabajos que enfocan la segmentación como parte del problema de reconocimiento de formas 9 y no como un problema exclusivo de parámetros estadísticos de la señal. Los métodos de segmentación que usan información sobre el contenido fonético (segmentación supervisada) requieren mayor tiempo de cómputo, y dado que cuentan con más información previa, tienden a un reconocimiento del habla con menos errores, pero existen varias aplicaciones en las cuales los métodos de segmentación sin supervisión resultan preferibles [b8].

Con el paso de los años, en particular para aplicaciones de vídeo, la segmentación en lapsosestacionarios” quedó relegada, en las nuevas investigaciones, por la búsqueda de técnicas que toman en cuenta la evolución de los procesos [b9], es decir, que aplican modelos estocásticos para procesos que no son estacionarios [b10].

c) Modelado mediante Filtros Predictores Lineales (LPC)

Para la fonemas laríngeos era común aceptar que los filtros predictores lineales con funciones de transferencia racionales y con numerador constante, llamados Modelos Autorregresivos (AR), funcionan satisfactoriamente. Como los sonidos faríngeos son rítmicos (contienen al menos una componente periódica o tono), el procedimiento básico consiste en identificar primero el tono fundamental (pitch) del segmento, para excitar al filtro de síntesis, correspondiente al fonema, con un tren de impulsos de periodo igual a dicho tono fundamental.

Para sintetizar los fonemas sordos, es decir, los sonidos carentes de tono 10 y ritmo, el método clásico consiste en excitar un filtro de síntesis con ruido blanco 11. Cuando los sonidos son sordos, los modelos AR tienen algunos problemas que se solucionarían con modelos ARMA (es decir, filtros lineales con funciones de transferencia racionales para incluir ceros en el polinomio del numerador), o bien, aproximando los ceros del modelo ARMA con polos añadidos a un modelo AR, lo que permite usar el arsenal disponible de métodos numéricos eficientes para los modelos AR; esta rapidez es importante para procesamiento en tiempo real. A este método básico de excitación de los filtros se atribuye el sonido clásico de la voz robótica, como el que uno escuchó en la película de ficción «Colossus: The Forbin Project (1970)», por lo que se han desarrollado otros métodos de excitación más complejos en la búsqueda de un sonido de voz más natural [c1], [c2].

Una referencia clásica sobre la técnica LPC es [c3] , y en forma de libro, más moderna: [c4].

La técnica LPC se ha usado mucho en telefonía cuando se requiere una calidad básica para la reproducción del habla comprimida (telephone voice speech quality) [c5]; sin embargo, no tiene la calidad suficiente para las aplicaciones multimedia que se requieren en la red de datos que comunican a los teléfonos inteligentes actuales .

Para una comparación de LPC con otras técnicas más modernas para la extracción de las principales características 12 de una señal de voz, véase, por ejemplo, [c6].

d) Cuantificación de los Vectores de Coeficientes

El Dr. A. Buzo es uno de los inventores del algoritmo iterativo LBG para Cuantificación de Vectores (VQ) 13, técnica desarrollada primero para transmisión [d1], y pronto aplicada en el ámbito del procesamiento de señales de voz [d2]. Después el algoritmo ha tenido muchas aplicaciones en diversas disciplinas, especialmente en Clasificación de Datos para el Reconocimiento de Formas 14. Existen, no obstante, otras técnicas de Clasificación de Datos por Aglomeración 15, desarrolladas con anterioridad en la Estadística Matemática, en especial, las diferentes versiones de la técnica conocida como K-promedios 16, [d3], [d4] llamada así porque determina un número K de centroides, los cuales son simplemente el valor medio de los datos en cada uno de K subconjuntos (clases) en los que se divide el conjunto completo de datos. El objetivo del algoritmo es que, al final de sus iteraciones, los datos incluidos en cada clase sean los más cercanos a su centroide. La diferencia más notable entre los algoritmos de K-promedios y el algoritmo LBG, consiste en que K-promedios define la cantidad K de centroides y clases desde el inicio del diseño del clasificador hasta optimizar el valor de dichos K centroides y así terminar con K clases, mientras que el algoritmo LBG inicia con sólo un centroide, y luego, en cada iteración, genera 2 nuevos centroides a partir de cada centroide de la iteración anterior y así tener 2, 4, …, 2m centroides en la m-ésima iteración; puede verse este proceso como una sucesión de biparticiones del conjunto de datos 17. Esta diferencia tiene consecuencias en la eficiencia del diseño de los clasificadores. Existe, por ejemplo, una combinación de ambos algoritmos [d5]. A la fecha (2015), persiste el interés en la combinación LPC - VQ [d6]. En Internet está expuesta una visualización muy clara de las etapas del algoritmo LBG [d7].


1.- También se les llama fonemas sonoros; en inglés: voiced phonems. En su generación intervienen las cuerdas vocales.

2.- Fonemas sordos; en inglés: unvoiced phonems. En su generación no intervienen las cuerdas vocales.

3.- Esta técnica para representar, con aproximación, un tramo de señal, recibe el nombre estándar de LPC: "Linear Prediction Coding"

4.- El modelo matemático de un filtro digital es, en esencia, una ecuación en diferencias.

5.- Un proceso estocástico estacionario produce una nueva señal aleatoria cada vez que se acciona, pero cada señal producida tiene los mismos parámetros estadísticos que las demás.

6.- Trama, en inglés: frame.

7.- Aglomeración, o conglomerado, de datos, en inglés: Clustering.

8.- MDL es acrónimo de minimum description length

9.- Reconocimiento de formas, en inglés: Pattern recognition

10.- Recuérdese que un tono corresponde a una senoide pura.

11.- Interesa que el espectro sea plano, pues el filtro es el que le dará forma al espectro de la señal sintetizada. Sin embargo, para producir la señal de excitación existen diversas técnicas y finalidades.

12.- Extracción de las características, en inglés: Feature Extraction

13.- Cuantificación de Vectores, en inglés: Vector Quantization, abreviado VQ.

14.- Reconocimiento de formas, en inglés: Pattern Recognition

15.- En inglés: Clustering

16.- En inglés: K-means

17.- Bipartición, en inglés: splitting (in halves)



b) Referencias sobre Segmentación

[b1]Wu, Zhenyu (1984): Segmentación Estadística para series de tiempo y sus aplicaciones en el procedimiento digital de voz. 1984 (Tesis UNAM, para obtener el título de Ingeniero en Computación, asesor Luis Andrés Buzo de la Peña)

[b2]Wu, Zhenyu (1992): Technical Report USC-SIPI-199

[b3]Z. Wu and R. Leahy (1993): An Optimal Graph Theoretic Approach to Data Clustering: Theory and Its Application to Image Segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 15, 11 (November 1993), 1101-1113. DOI=10.1109/34.244673 [http://dx.doi.org/10.1109/34.244673]

[b4]P. Prandoni, M. Goodwin and M. Vetterli. Optimal time segmentation for signal modeling and compression. IEEE Conference on Acoustics, Speech and Signal Processing, vol.3, p. 2029-2032. 1997

[b5]K. Gold & B. Scassellati: Audio Speech Segmentation Without Language-Specific Knowledge. Cognitive Science, Vancouver, 2006.

[b6]Mdl-research (en inglés)

[b7]Sandrine Brognaux and Thomas Drugman: HMM-based speech segmentation: improvements of fully automatic approaches. IEEE/ACM Trans. Audio, Speech and Lang. Proc. 24, 1 (January 2016), 5-15.[http://dx.doi.org/10.1109/TASLP.2015.2456421]

[b8]Noureddine Lachachi, Unsupervised Phoneme Segmentation Based on Main Energy Change for Arabic Speech, Journal of Telecommunications and Information Technology, 1/2017

[b9]W.D. Penny and S.J. Roberts(1999): Dynamic models for nonstationary signal segmentation. Computers and Biomedical Research. Vol 32, No.6, December, pp.483-502. [→Publicaciones relacionadas de William D. Penny]

[b10]S.M. Norholm, J.R. Jensen, M.G. Christensen (2016): Instantaneous Fundamental Frequency Estimation With Optimal Segmentation for Nonstationary Voiced Speech. IEEE/ACM Trans. Audio, Speech and Lang. Proc. 24, 12 (December 2016), 2354-2367. DOI: https://doi.org/10.1109/TASLP.2016.2608948



c) Referencias sobre modelado de la señal de voz mediante Filtros Predictores Lineales (LPC)

[c1]J. C. Bellamy, Digital Telephony, 3rd Ed., Wiley, 2000.

[c2]B. Keiser and E. Strange: Digital Telephony & Network Integration, Van Nostrand Reinhold, 1985

[c3]J. Makhoul. Linear prediction: A tutorial review. Proceedings of the IEEE,63(4):561–580, 1975

[c4]P. P. Vaidyanathan, The Theory of Linear Prediction, Morgan & Claypool Publishers, 2008

[c5]T. Dutoit, N. Moreau, P. Kroon, How is speech processed in a cell phone conversation? Capítulo 1 en: Thierry Dutoit et al, Applied Signal Processing, Springer, 2009

[c6]S. Narang, D. Gupta: Speech Feature Extraction Techniques: A Review, International Journal of Computer Science and Mobile Computing, March 2015



c) Referencias sobre Cuantificación Vctorial (VQ)

[d1]Y. Linde, A. Buzo and R. M. Gray.: An algorithm for vector quantizer design. IEEE Trans. Comm. COM-28 (Jan. 1980), pp. 84–95.

[d2]A. Buzo, A. H. Gray, Jr. R. M. Gray, and J. D. Markel.: Speech coding based upon vector quantization, IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 28, October 1980, pp. 562—574

[d3]MacQueen, J.: Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symposium on Mathematical Statistics and Probability, Vol.1. University of California Press (1967) 281-297

[d4]J. A. Hartigan and M. A. Wong.: Algorithm AS 136: A K-Means Clustering Algorithm, Journal of the Royal Statistical Society, Series C (Applied Statistics), Vol. 28, No. 1 (1979), pp. 100-108; Publicado por: «Wiley for the Royal Statistical Society».

URL estable: http://www.jstor.org/stable/2346830

[d5]Balwant A. Sonkamble, D. D. Doye, Speech Recognition Using Vector Quantization through Modified K-mean LBG Algorithm, Computer Engineering and Intelligent Systems, ISSN 2222-2863 (Online), Vol 3, No7, 2012

[d6]Lin Wang, Zhe Chen, and Fuliang Yin. 2015.: A novel hierarchical decomposition vector quantization method for high-order LPC parameters. IEEE/ACM Trans. Audio, Speech and Lang. Proc. 23, 1 (January 2015), 212-221. DOI=10.1109/TASLP.2014.2380352

http://dx.doi.org/10.1109/TASLP.2014.2380352

[d7]Animación: Generación de centroides mediante «biparticiones y clasificaciones» sucesivas:

http://www.data-compression.com/vqanim.shtml