Mel Frequency Cepstral Coefficients (MFCCs) are a representation of the short-term power spectrum of sound, commonly used in Audiobearbeitung and Spracherkennung. They are derived from the Fourier-Transformation of a signal, capturing the frequency content in a way that mimics human perception des Klangs entspricht.
Der Prozess der Gewinnung von MFCCs umfasst mehrere Schritte. Zuerst wird das Audiosignal in überlappende Frames unterteilt, und jedes Frame wird mit einem Fenster versehen, um spektrale Leckage zu reduzieren. Als Nächstes wird die Fourier-Transformation auf jedes Frame angewendet, um ein Leistungsspektrum zu erzeugen. Dieses Spektrum wird dann auf die Mel-Skala abgebildet, die eine perceptuelle Skala der Tonhöhen ist. Der Abstand der Mel-Skala ist so gestaltet, dass er die menschliche Klangwahrnehmung widerspiegelt, wobei niedrigere Frequenzen betont und höhere Frequenzen komprimiert werden.
After mapping to the Mel scale, the logarithm of the power spectrum is taken, followed by the application of a diskrete Kosinustransformation (DCT). The resulting coefficients represent the short-term power spectrum in a compact form, with the first few coefficients typically containing the most relevant information for tasks such as speaker recognition or phoneme classification.
MFCCs have become a standard feature set in various audio and speech processing applications due to their effectiveness in capturing the characteristics of the human voice and other sounds. They are widely in maschinellen Lernmodellen verwendet for tasks related to speech recognition, speaker identification, and even music genre classification.