ENHANCING EMOTION RECOGNITION THROUGH MULTIMODAL CONTEXTUAL FEATURE INTEGRATION

Thanh Nha Tran, Quốc Hưng Nguyễn1, , Cong Phi Ta, Nguyen Tien Dat Ly, Quoc Trong Nguyen, Viet Hung Nguyen
1 Trường Đại học Sư phạm TP Hồ Chí Minh

Main Article Content

Abstract

Trong kỷ nguyên số, nhu cầu về các hệ thống thông minh có khả năng thấu cảm với cảm xúc người dùng ngày càng tăng cao. Tuy nhiên, các phương pháp nhận diện cảm xúc hiện có, dù là đơn phương thức hay đa phương thức, thường chưa thể tích hợp thông tin từ nhiều nguồn một cách chặt chẽ và tận dụng ngữ cảnh một cách hiệu quả. Điều này khiến các mô hình dễ bị ảnh hưởng bởi nhiễu hoặc thông tin thiếu sót từ dữ liệu đầu vào. Để khắc phục hạn chế này, nghiên cứu này giới thiệu MCFF (Multi-Modal Contextual Feature Fusion), một kiến trúc học sâu đa phương thức được thiết kế để khai thác đồng thời thông tin hình ảnh, âm thanh và văn bản. Kết quả thực nghiệm trên bộ dữ liệu IEMOCAP đạt 82.89% Accuracy và 82.86% F1-score, cho thấy MCFF có hiệu suất cạnh trạnh mạnh mẽ so với các phương pháp tiên tiến khác. MCFF cho thấy tiềm năng ứng dụng rộng rãi trong các hệ thống tương tác thông minh, từ cải thiện trải nghiệm trong giáo dục trực tuyến và trợ lý ảo cho đến hỗ trợ quan trọng trong lĩnh vực chăm sóc sức khỏe tâm thần.

Article Details