TĂNG CƯỜNG NHẬN DIỆN CẢM XÚC THÔNG QUA TÍCH HỢP ĐẶC TRƯNG NGỮ CẢNH ĐA PHƯƠNG THỨC

Trần Thanh Nhã, Nguyễn Quốc Hưng1, , Tạ Công Phi, Lý Nguyễn Tiến Đạt, Nguyễn Quốc Trọng, Nguyễn Viết Hưng
1 Trường Đại học Sư phạm TP Hồ Chí Minh

Nội dung chính của bài viết

Tóm tắt

Trong kỷ nguyên số, nhu cầu về các hệ thống thông minh có khả năng thấu cảm với cảm xúc người dùng ngày càng tăng cao. Tuy nhiên, các phương pháp nhận diện cảm xúc hiện có, dù là đơn phương thức hay đa phương thức, thường chưa thể tích hợp thông tin từ nhiều nguồn một cách chặt chẽ và tận dụng ngữ cảnh một cách hiệu quả. Điều này khiến các mô hình dễ bị ảnh hưởng bởi nhiễu hoặc thông tin thiếu sót từ dữ liệu đầu vào. Để khắc phục hạn chế này, nghiên cứu này giới thiệu MCFF (Multi-Modal Contextual Feature Fusion), một kiến trúc học sâu đa phương thức được thiết kế để khai thác đồng thời thông tin hình ảnh, âm thanh và văn bản. Kết quả thực nghiệm trên bộ dữ liệu IEMOCAP đạt 82.89% Accuracy và 82.86% F1-score, cho thấy MCFF có hiệu suất cạnh trạnh mạnh mẽ so với các phương pháp tiên tiến khác. MCFF cho thấy tiềm năng ứng dụng rộng rãi trong các hệ thống tương tác thông minh, từ cải thiện trải nghiệm trong giáo dục trực tuyến và trợ lý ảo cho đến hỗ trợ quan trọng trong lĩnh vực chăm sóc sức khỏe tâm thần.

Chi tiết bài viết