Introducción
La investigación sobre el análisis del llanto infantil (ALLI) se basó en sus en sus inicios en la identificación auditiva de varios tipos de llanto. En las décadas de 1960 y 1970, los avances en la tecnología de grabación de sonido, como los espectrógrafos de sonido, fueron un significativo progreso en este campo. Se usó por primera vez en el análisis de la vocalización infantil en 1951 por Lymp, aunque el Grupo Finés de Investigación del Llanto Infantil fue el primero en tomar ventaja del uso del espectrógrafo de sonido para un análisis más detallado del llanto infantil1. Esta experiencia se considera como el punto de partida de la etapa moderna del ALLI. Se analizaron espectrogramas de sonido de lactantes sanos y enfermos para obtener características acústicas de las que se podrían derivar una serie de características descriptivas2–5. Este método dependía en gran medida del examen visual subjetivo más que de métodos objetivos cuantitativos y permitía derivar solo un número limitado de características acústicas. Los otros problemas que lo afectaban eran un rango dinámico deficiente y una baja resolución de frecuencia de los espectrogramas de llanto. Además, este método no era adecuado para el análisis en casos en los que era necesario examinar una gran cantidad de archivos de audio (llanto) en un corto periodo de tiempo. Posteriormente los avances en las tecnologías informáticas y los métodos de procesamiento de señales permitieron el uso de métodos informáticos. Usando estos métodos, ahora se podrían derivar directamente una serie de parámetros acústicos útiles en lugar de depender únicamente del examen visual.
Se ha postulado que la emisión de sonidos de llanto por parte del neonato no es un mero evento acústico-lingüístico. Los investigadores llevan mucho tiempo intentando extraer la información diagnóstica, comunicativa y predictiva que contiene. Se sabe que los neonatos que padecen afecciones médicas específicas producen sonidos de llanto diferentes a los neonato saludables. También se ha argumentado que el estado neurológico de un bebé está interrelacionado con la señal de llanto que produce1,3. Una señal de llanto es producida por un fenómeno biológico complejo que es una combinación de mecanismos neuronales y fisiológicos. Se ha estudiado ampliamente su correlación con condiciones médicas como encefalitis, síndrome de Down, síndrome de cri du chat, paladar hendido, daño cerebral, etc.4,5. El desarrollo de variados métodos de análisis ha permitido una mejor caracterización de los parámetros de la señal de llanto, tanto en la determinación de sus especificidades como en su relevancia, emergiendo el análisis espectral como uno de sus paradigmas. El presente artículo pretende mostrar la impronta de esta metodología en el ALLI en la actualidad.
Modelo fisioacústico del llanto infantil. Modelo de Golub
A pesar de que la experiencia escandinava es el punto de partida del ALLI como área de investigación, no es hasta 1979-1980 cuando en investigaciones del llanto infantil se logra combinar técnicas de análisis de llanto con un modelo de producción del llanto y técnicas de procesamiento de señal apoyado en computadora, obteniendo un modelo capaz de reflejar las propiedades acústicas del llanto. Esto fue un gran paso de avance en la comprensión y correlación de las características acústicas del llanto infantil con condiciones patológicas. Este modelo es el Modelo fisioacústico del llanto infantil6, descrito por Howard Golub, el cual lo forman un componente acústico y un componente fisiológico. El primero especifica cómo se genera el sonido del llanto y el segundo se refiere a la configuración, funcionamiento y control de la respiración, laringe y sistema supralaríngeo en la producción de llanto. Se considera el llanto infantil, según se ha referido, como el resultado de la interacción de complejas estructuras anatómicas y fisiológicas, interacción que comprende a los sistemas nervioso central, respiratorio y nervioso periférico, y una variedad de músculos. Basándose en el Modelo fisioacústico del llanto, Golub y Corwin6 desarrollaron un modelo de procesamiento de señal usando computadora para correlacionar anormalidades médicas en el niño con características o atributos del llanto. Mediante tres estructuras anatómicas básicas del modelo los autores pudieron establecer la relación de estas con importantes variables acústicas. Por ejemplo, del sistema subglotal, hay relación con latencia, duración, intensidad, energía y fonación o disfonación del llanto. De la laringe, con la frecuencia fundamental (Fo), incluyendo hiperfonación (Fo mayor que 1,000 Hz). Del sistema supraglotal, con los formantes. El Modelo fisioacústico del llanto infantil es una guía capaz de suministrar información en la selección de los atributos acústicos que están estrechamente relacionados con las anomalías de la anatomía y fisiología del niño3–6.
¿Cómo se construye el espectrograma digital de una señal de llanto?
El sonido es la sensación producida en nuestro oído por el movimiento vibratorio de los cuerpos, el cual al propagarse origina pequeñas fluctuaciones en la presión del aire. A la descripción de estas variaciones de la presión del aire a lo largo del tiempo en un punto tomado como referencia (p. ej., el lugar donde está el micrófono) se la denomina señal de audio. Cualquier acontecimiento sonoro puede quedar definido por esta señal, y el llanto lo es. Mediante un sistema digital la señal de audio (llanto) puede ser muestreada y transformada en una representación adecuada para una computadora y lista para ser procesada. Ahora bien, aunque la señal de audio (llanto) es una buena representación del hecho físico sonoro, no es adecuada para describir a la señal de llanto en sí, pues no aparece una analogía explícita entre la señal de llanto y la percepción del oído materno (o cuidador). Pero en las pruebas auditoriales realizadas con madres y neonatos en los 60 y 70 se demostró que las madres bajo cierto entrenamiento eran capaces de reconocer a su bebé entre una población de niños solo por su llanto, esto demuestra que en esa onda acústica hay información (o códigos) que el niño transmite en su interacción con el entorno circundante que puede llegar a ser descodificado por su madre (o cuidador).
Ya que el oscilograma del llanto no brinda esa información era preciso buscar una representación que caracterizara mejor ese llanto. El objetivo era una mejor descripción de la evolución de la señal de llanto en los dominios del tiempo, frecuencia y amplitud de ese sonido. Para ello se aplica la transformada de Fourier a un segmento corto de la señal en torno a un instante t, considerando que los picos más relevantes de la función obtenida se corresponden con los componentes sinusoidales presentes en la señal en ese instante t. Se asume que durante la duración de ese intervalo de tiempo en torno a t (ventana, o frame, de análisis) no se producen cambios significativos en la amplitud y en la frecuencia de los componentes de la señal (señal cuasiestacionaria). Este procedimiento guarda semejanza con lo que realiza en nuestro oído la membrana basilar (proceso auditivo). Al operar en la computadora nos movemos en un mundo discreto (es decir, tratamos con señales digitales y los procedimientos de cálculo también son digitales), por consiguiente, las variables con las que se trabaja (tiempo y frecuencia) tendrán que ser también discretas. En el mundo digital la mejor opción para calcular la transformada discreta de Fourier es el conocido algoritmo FFT (fast Fourier transform o transformada rápida de Fourier). El procedimiento consiste en aplicar la transformación a segmentos cortos de la señal de llanto sucesivamente desplazados y solapados. Al final se obtiene una representación tridimensional del llanto como muestra la figura 1, conocida como espectrograma digital.

Figura 1. Espectrograma digital de una señal de llanto.
Un espectrograma E tal como el mostrado en la figura 1 se crea a partir de la muestra gráfica de todos los espectros calculados a partir de la onda acústica de llanto (todas las ventanas o frames). El eje vertical en E representa la frecuencia, con 0 Hz en base y 4 kHz en el tope. Todos los espectros calculados son mostrados en paralelo al eje vertical (y). El eje horizontal representa el eje tiempo, a medida que nos movemos a la derecha a lo largo del eje x, pasando de un espectro a otro. Los E son normalmente calculados en forma digital en la computadora y almacenados en memoria como un arreglo 2D (bidimensional) de valores de la energía de la señal acústica. Para un espectrograma E dado, la energía (amplitud) de un componente de frecuencia f en un instante de tiempo t en la señal del llanto es representada por la oscuridad o color del punto correspondiente E (t, f). Normalmente se acostumbra a representar gráficos conjuntos (uno a continuación del otro) de la forma de onda (oscilograma) y del espectrograma (Fig. 2). En esta forma de representación el lector del espectrograma E puede fácilmente visualizar los patrones en la forma de onda y en la forma correspondiente al espectrograma4. Analizando específicamente el espectrograma digital de la figura 2 se tiene que el eje tiempo (abscisas) va de izquierda a derecha para un periodo correspondiente a 12 segundos de grabación de llanto infantil con marcas correspondientes a 1 segundo. El nivel de gris o negrura corresponde a la intensidad del llanto. En el eje de las ordenadas se tiene, de abajo hacia arriba, a la frecuencia, en este caso en un rango de 4,000 Hz (ciclos/s). En este ejemplo se observa una señal de llanto que comienza aproximadamente a los 0.25 s, tiene paquetes sonoros cuasiperiódicos (generalmente denominados como unidad de llanto en un ciclo inspiración/expiración) con espacios de silencio intercalados.

Figura 2. Espectrograma de un llanto infantil con duración de 12 segundos.
Puede observarse como el primer armónico da la F0 y los múltiplos de ella conforman los armónicos superiores (segundo, tercero, etc.). Para el instante prefijado se tiene un valor de F0 cercano a los 850 Hz. Para el especialista entrenado y conocedor de la acústica del llanto y su vinculación con determinados patrones neurofisiológicos del neonato, la información del espectrograma resulta de gran utilidad (logopedas, foniatras y otros).
Atributos acústicos del llanto derivados del espectrograma digital
En general una buena parte de los atributos acústicos del llanto pueden ser reflejados e inducidos por simple inspección en el espectrograma. En 1980 Michelsson publicó un esquema ilustrativo de algunos de esos atributos2.
Son estos atributos (características cualitativas) los que, según su comportamiento, presencia o combinación pueden servir de pistas o marcadores para establecer un posible estatus neurofisiológico en el neonato. A manera de ejemplo veamos en la figura 3 el espectrograma del llanto de un niño con problemas de asfixia (llanto patológico). En este se observan aspectos vinculados con el llanto de asfixia como: llanto débil (pobre contenido energético), con pérdida de su estructura armónica, valores elevados de F0 (por encima de 1,000 Hz), así como zonas con concentraciones ruidosas (niveles altos de energía dados por el negror o nivel de gris, pero sin estructura de armónicos establecida).

Figura 3. Espectrograma de una señal de llanto correspondiente a un neonato con problemas de hipoxia (asfixia).
Valorizando las características o atributos cualitativos presentes en el espectrograma
Ha sido una aspiración constante de los investigadores el establecimiento de leyes para describir formalmente los procesos de producción y percepción del llanto infantil. Los esfuerzos en este sentido tienen como objetivo mostrar el llanto infantil no solo como un evento acústico-lingüístico, sino también como un indicador del estado neurofisiológico del neonato. Hay dos enfoques para el ALLI: el análisis cuantitativo y el análisis cualitativo. En el primero se utilizan medidas cuantitativas para describir la onda de llanto (oscilograma) mediante diferentes tipos de características acústicas. Por ejemplo, una descripción cuantitativa del llanto de un neonato normal se caracteriza por una F0 promedio de 450 Hz y su banda de normalidad se mueve entre 400 y 600 Hz1–4, armónicos espaciados simétricamente y con duraciones promedio de unidades de llanto de entre 1 y 1.5 s5. Alternativamente, el análisis cualitativo está disponible para usarse solo o como complemento del cuantitativo. Generalmente, el análisis cualitativo se realiza mediante inspección visual del espectrograma. La descripción cualitativa obtenida proporciona información adicional útil para la identificación de variaciones o similitudes presentes en las respectivas ondas de llanto patológico y normal. Se pueden percibir varias características cualitativas por medio de la inspección visual de la onda de llanto en el espectrograma, tales como forma melódica, desplazamiento de F0 (cambios bruscos), deslizamientos, vibratos, etc. A partir de las características cualitativas percibidas, los médicos especialistas esperan recopilar información relevante que les permita diferenciar los llantos normales de los patológicos para ayudar a realizar un diagnóstico oportuno.
Potencial diagnóstico de algunas características cualitativas presentes en el espectrograma
La literatura especializada se refiere al cambio en el llanto infantil debido a condiciones patológicas. Entre las enfermedades y condiciones patológicas en las que se ha estudiado el llanto infantil se encuentran aquellas asociadas a anomalías cromosómicas (llanto cri du chat, síndrome de Down), trastornos endocrinos, trastornos metabólicos, daño cerebral, síndrome de muerte súbita del lactante, bajo peso al nacer, prematuridad, asfixia, desnutrición y síndrome de enfermedades y malformaciones del tracto orolaríngeo (labio hendido). Otros estudios han incluido el llanto de niños de madres drogadictas o alcohólicas. En condiciones patológicas, un propósito importante, además de considerar los cambios que ocurren en los patrones normales y anormales, es conocer qué rasgos o atributos, así como cuáles son los rangos de valores en el llanto, que pueden verse alterados por estos cambios. En los últimos avances del ALLI se visualizan trabajos que intentan proporcionar información útil para diferenciar entre llantos normales y patológicos. Resumiendo algunas de las características descriptivas encontradas:
- Para un llanto infantil normal o saludable: llanto con valores promedio de F0 de 450 Hz, con rango de 400 a 600 Hz, el patrón melódico que prevalece es ascendente-descendente, en la onda de llanto hay más sonidos de llanto que silencios.
- Para llanto con tendencia patológica: llantos con valores extremos en la F0, las formas melódicas que prevalecen son descendente, descendente-ascendente, plana y sin forma melódica definida, los deslizamientos y cambios ocurren con mayor frecuencia2.
Avances recientes
Emergencia de nuevos atributos cualitativos del espectrograma digital con potencial diagnóstico
Aunque los coeficientes cepstrales en escala Mel y los coeficientes de predicción lineal, así como las características espectrales, han sido los atributos más utilizados en la clasificación de llanto, aún existen nichos no suficientemente estudiados en el área de extracción de características (con potencial diagnóstico). En 1982 Michelsson describió el comportamiento de ciertos atributos acústicos en el espectrograma de la señal de llanto de niños en presencia de ciertas patologías del sistema nervioso central3. Michelsson concluyó que algunos de estos fenómenos acústicos como las estridencias, los cambios de la F0 (desplazamientos) y la melodía podrían ser pistas para el diagnóstico, pero lamentablemente no habían sido objeto de una profunda investigación. Agrega también que en el caso de la estridencia el grupo escandinavo trabajó en su medición objetiva, pero no en la relación entre el número de estridencias presentes en un cuadro de llanto con el valor de F0 y el patrón de melodía en el segmento de análisis. Partiendo de estos antecedentes investigadores del Grupo de procesamiento de voz de la Universidad de Oriente (Cuba) proponen7 y validan8 un nuevo set de atributos cualitativos del llanto infantil presentes en el espectrograma con potencial diagnóstico para ser incorporados en tareas de clasificación automática de llanto infantil: estridencia, desplazamiento de F0 y melodía. Este resultado demuestra el potencial de algunos atributos no suficientemente abordados en los últimos avances del ALLI cuando se combinan adecuadamente. En 2018 Reyes-García et al. retomaron dos parámetros cualitativos olvidados, como desplazamiento de F0 y deslizamiento, y los combinaron con patrones de melodía para estudiar el llanto de los niños indígenas en México9, concluyendo que la combinación de este conjunto de parámetros acústicos resultó clave para diferenciar el llanto sano del patológico, evidenciando su potencial diagnóstico. Se demostró que incluso el análisis de las características cualitativas del llanto destinado al diagnóstico de los recién nacidos sigue siendo un tema abierto para los investigadores.
La clasificación de llanto infantil basado en espectrograma del llanto
La clasificación de llanto puede interpretarse también como un problema de clasificación de imágenes, ya que ese sonido puede también representarse como un espectrograma, que es la representación visual del sonido. Así, cuando convertimos las muestras de llanto infantil en espectrogramas, la tarea de clasificación de llanto se transforma en una tarea de clasificación de imágenes. La posibilidad de representar la señal de llanto como imagen por medio de espectrogramas abre una nueva perspectiva para el uso de la representación visual del espectro de frecuencias de una señal de llanto a medida que varía con el tiempo. Y la ventaja de esta técnica es que actualmente existen modelos de aprendizaje profundo muy potentes que están hechos específicamente para clasificar imágenes de manera muy eficiente10. Las arquitecturas de aprendizaje profundo como las redes neuronales convolucionales (CNN) se vienen aplicando con éxito en múltiples campos de la ciencia con bastante éxito (en algunos casos superiores al desempeño humano experto). Martínez-Cañete et al.11 seleccionan las CNN para la clasificación del espectrograma de llanto infantil inspirados en su gran desempeño en el reconocimiento de imágenes. Mandujano et al.12 proponen otro modelo, en el cual se implementó una CNN para un clasificador de llanto multivistas (donde las clases son hipoxia, hipoacusia, hambre, dolor y normal) con un espectrograma-imagen como entrada al clasificador. Aunque en el centro de esta investigación predominó como objetivo una clasificación binaria, con este resultado los autores muestran las potencialidades de las redes CNN para clasificación multiclase, esto se considera un paso de avance hacia el diagnóstico diferencial en neonatos basado en ALLI.
Además, el éxito actual del espectrograma en clasificación de llanto infantil viene siendo una tendencia actual. Le et al. desarrollaron varios modelos que emplean técnicas de aprendizaje automático, aprendizaje profundo y clasificación por conjuntos13, los cuales fueron entrenados en imágenes de espectrogramas de los archivos de audio tomados de la base de datos mexicana Baby Chillanto, logrando desempeños con precisiones superiores al 90%. Chang et al. obtuvieron altas tasas de detección y reconocimiento14 al implementar un clasificador multiclases (que incluye dolor, hambre, somnolencia y pañal mojado) mediante la conversión de la señal de llanto en un espectrograma bidimensional. Inicialmente hacen uso de una CNN para determinar si el espectro de entrada representa el llanto de un bebé y a continuación se adicionan un set de redes neuronales convolucionales unidimensionales que clasifican el llanto en las cuatro categorías previamente prefijadas. Felipe et al.15 desarrollaron un sistema automático para determinar si el llanto de un bebé está motivado por la sensación de dolor basado en la extracción de características del espectrograma generado a partir de muestras de audio de bebés con muy buenos resultados. Finalmente, Zayed et al.16 demuestran la importancia de fusionar diferentes características de llanto, especialmente el espectrograma, por medio del proceso de aprendizaje en lugar de una simple concatenación y el uso de algoritmos de aprendizaje profundo para extraer características escasamente representadas que se pueden usar más adelante en el problema de clasificación, lo que mejora la separación de clases entre las diferentes patologías de los neonatos.
Tecnologías web basadas en espectrograma digital
Desde el 2015 los investigadores del Grupo de procesamiento de voz vienen desarrollando herramientas basadas en tecnología web que hacen uso del análisis espectrográfico en investigaciones vinculadas con la detección temprana de trastornos en el neurodesarrollo infantil (TND) basada en ALLI, resultado de una colaboración científica con el Servicio de Neurodesarrollo Infantil y Discapacidad (SPNID) en la provincia de Santiago de Cuba. Una de ellas es el ANAVOZ para la adquisición de señales de voz y prevocalizaciones, su almacenamiento, edición, reproducción y extracción de características, tal como se aprecia en la figura 4A. Con ella se garantiza la medición, estimación y extracción de los atributos acústicos cuantitativos y cualitativos requeridos en la investigación17. La herramienta CryTrainer 1.0 se muestra en la figura 4B; gestiona un entrenador con tecnología web para caracterización acústica de llanto infantil vía espectrograma digital, destinada para la preparación del personal médico de SPNID (apoyado en valoración de información visual, auditiva y textual). El CryTrainer es capaz de entrenar al usuario en asociar el comportamiento de diferentes parámetros y fenómenos acústicos de la señal de llanto, a partir de información visual y auditiva presente en el espectrograma, con la presencia de diferentes patrones neurofisiológicos y patológicos presentes en niños recién nacidos. El software puede aplicarse también en la formación y preparación de futuros especialistas en foniatría y logopedia infantil, especialidades que forman parte del SPNID18.

Figura 4. Capturas de pantalla de las herramientas ANAVOZ (A) y CryTrainer (B).
Ambas herramientas forman parte de un anteproyecto de metodología para apoyo al diagnóstico temprano de TND basado en ALLI actualmente en desarrollo.
Conclusiones
El presente trabajo aborda la pertinencia actual de una herramienta tradicional y efectiva como es el espectrograma digital en este caso aplicado al análisis y estudio del llanto infantil orientado al diagnóstico neonatal. La emergencia reciente de un nuevo set de características cualitativas con potencial diagnostico como la estridencia, el desplazamiento de F0 y la melodía, la adaptabilidad de estas al combinarse con otras características validadas por el estado actual del ALLI nos muestra no solo la validez actual del análisis espectrográfico de la señal de llanto, sino también la necesidad de continuar los esfuerzos investigativos en la extracción de características que potencien la eficiencia y rendimiento de los clasificadores de llanto actuales. La emergencia de métodos de clasificación automática de llanto infantil con aprendizaje profundo que hacen uso del espectrograma para la representación del dato de entrada al clasificador muestra una tendencia actual. Se espera en los próximos años importantes avances en el ALLI a partir de la confluencia de nuevos modelos de clasificadores basados en aprendizaje automático, solidez en la tecnología web y una mejor caracterización de la señal de llanto infantil.
Financiamiento
Los autores declaran que los resultados abordados en el presente artículo son parcialmente apoyados por el Project n° 2: Biomedical technologies and services for improving the medical assistance in the eastern region of Cuba, IUC Partner Programme (PP) Phase II, Belgium-Cuba Cooperation.
Conflicto de intereses
Los autores declaran no tener conflicto de intereses.
Consideraciones éticas
Protección de personas y animales. Los autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.
Confidencialidad, consentimiento informado y aprobación ética. El estudio no involucra datos personales de pacientes ni requiere aprobación ética. No se aplican las guías SAGER.
Declaración sobre el uso de inteligencia artificial. Los autores declaran que no utilizaron ningún tipo de inteligencia artificial generativa para la redacción de este manuscrito.