Hiện nay, mô hình học sâu được sử dụng rộng rãi trong nhiều bài toán khác nhau và đã chứng tỏ sự vượt trội so với các phương pháp truyền thống. Đặc biệt, trong lĩnh vực phân lớp âm thanh môi trường, nhiều nghiên cứu đã đạt được kết quả đáng kể trong những năm gần đây. Tuy nhiên, hiệu quả của các mô hình sử dụng đặc trưng âm thanh như log-mel spectrogram (LM), hệ số cepstral tần số mel (MFCC) hoặc dạng sóng thô (waveform) để huấn luyện mạng nơ-ron sâu cho bài toán phân lớp âm thanh môi trường (ESC) vẫn chưa đạt yêu cầu. Trong bài báo này, chúng tôi đề xuất phương pháp kết hợp hai đặc trưng MFCC và Mel Spectrogram để tạo ra một biểu diễn toàn diện hơn cho âm thanh môi trường đươc gọi là đặc trưng MMS làm đầu vào để huấn luyện mạng với tên gọi là CNN-MMS, mô hình được huấn luyện trên bộ dữ liệu UrbanSound8K. Kết quả thực nghiệm cho thấy mô hình CNN-MMS được đề xuất cũng đạt 91% độ chính xác so với một số mô hình CNN được đề xuất trước đó trên cùng tập dữ liệu.
Nowadays, deep learning models have become widely adopted across various tasks, consistently outperforming traditional approaches. In the domain of environmental sound classification, recent studies have reported significant advancements. However, the effectiveness of existing models that rely on audio features such as log-mel spectrogram (LM), mel-frequency cepstral coefficients (MFCC), or raw waveforms to train deep neural networks for environmental sound classification (ESC) still falls short of expectations. In this study, we introduce a novel approach that integrates MFCC and Mel Spectrogram features to construct a more holistic representation of environmental sounds, termed the MMS feature. This feature is then used as input for training a convolutional neural network, named CNN-MMS, on the UrbanSound8K dataset. Experimental results indicate that the proposed CNN-MMS model achieves an accuracy of 91%, surpassing several previously introduced CNN models on the same dataset.
Học sâu, Mạng Nơ-ron tích chập, Phân lớp âm thanh môi trường, MFCC, Mel spectrogram ,Bộ dữ liệu âm thanh môi trường
Deep Learning, Convolutional Neural Networks, Environmental Sound Classification, MFCC, Log-Mel Spectrogram, Environmental Sound Dataset
Ballan, L., Bazzica, A., Bertini, M., Del Bimbo, A., & Serra, G. (2009). Deep networks for audio event classification in soccer videos. In 2009 IEEE International Conference on Multimedia and Expo, pp. 474-477.
Chu, S. N. (2009). Environmental sound recognition with timefrequency audio features. Institute of Electrical and Electronics Engineers Inc.
Graves, A., Mohamed, A.-r., & Hinton, G. (2013). Speech recognition with deep recurrent neural networks. In 2013 IEEE international conference on acoustics, speech and signal processing, pp. 6645-6649.
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., & Kingsbury,, B. (2012). Deep neural networks for acoustic modeling in speech recognition. The shared views of four research groups. IEEE Signal processing magazine, 29(6), 82-97.
Khamparia, A., G., N., Khanna, A., Pandey, B., & Tiwari, P. (2019). Sound Classification Using Convolutional Neural Network and Tensor Deep Stacking Network. IEEE Access, 7717-7727.
Li, S., Yao, Y., Hu, J., Liu, G., Yao, X., & Hu, J. (2018). An Ensemble Stacked Convolutional Neural Network Model for Environmental Event Sound Recognition. Applied Sciences, 8(7), 1152.
Sang, J., Park, S., & Lee, J. (2018). Convolutional recurrent neural networks for urban sound classification using raw waveforms. In 2018 26th European Signal Processing Conference (EUSIPCO), pp. 2444-2448.
Su, Y., Zhang, K., Wang, J., & Madani, K. (2019). Environment sound classification using a two-stream CNN based on decision-level fusion. Sensors, 19(7), 1733.