Mel Frequency Cepstral Coefficients (MFCCs) are a representation of the short-term power spectrum of sound, commonly used in processamento de áudio and reconhecimento de fala. They are derived from the Transformada de Fourier of a signal, capturing the frequency content in a way that mimics human perception do som.
O processo de obtenção dos MFCCs envolve várias etapas. Primeiro, o sinal de áudio é dividido em quadros sobrepostos, e cada quadro é janela para reduzir vazamento espectral. Em seguida, a transformada de Fourier é aplicada a cada quadro para gerar um espectro de potência. Esse espectro é então mapeado na escala Mel, que é uma escala perceptual de tons. A distribuição na escala Mel é projetada para refletir a forma como os humanos percebem o som, enfatizando frequências mais baixas enquanto comprime as frequências mais altas.
After mapping to the Mel scale, the logarithm of the power spectrum is taken, followed by the application of a Transformada discreta de cosseno (DCT). The resulting coefficients represent the short-term power spectrum in a compact form, with the first few coefficients typically containing the most relevant information for tasks such as speaker recognition or phoneme classification.
MFCCs have become a standard feature set in various audio and speech processing applications due to their effectiveness in capturing the characteristics of the human voice and other sounds. They are widely usados em modelos de aprendizado de máquina for tasks related to speech recognition, speaker identification, and even music genre classification.