PHÂN TÍCH, SO SÁNH VÀ ĐÁNH GIÁ CÁC MÔ HÌNH ĐA PHƯƠNG THỨC ỨNG DỤNG TRONG TRẢ LỜI CÂU HỎI HÌNH ẢNH TRÊN TIẾNG VIỆT
Nội dung chính của bài viết
Tóm tắt
Trả lời câu hỏi qua hình ảnh (VQA) là một lĩnh vực thách thức trong khoa học thị giác máy tính và xử lý ngôn ngữ tự nhiên, thu hút sự quan tâm của đông đảo các nhà nghiên cứu trong thời gian gần đây. Phương pháp thông thường là rút trích các đặc trưng từ từng vùng trong hình ảnh, điều này giúp nắm bắt bối cảnh cục bộ nhưng lại bỏ qua bối cảnh toàn cục của hình ảnh., lấy ý tưởng từ mô hình Vision Transformer, một giải pháp bằng cách kết hợp đặc trưng bối cảnh toàn cầu và cục bộ để phát triển khả năng hiểu hình ảnh, nhằm mục đích nâng cao hiệu suất của mô hình. Ngoài ra, phương pháp chú ý ngữ cảnh đa phương thức cũng được đề xuất để đạt được hiệu quả tốt hơn trong việc học các đặc trưng dựa trên các bối cảnh được trích xuất từ cả hình ảnh và câu hỏi. Phần lớn các mô hình VQA hiện tại đều được tối ưu cho dữ liệu tiếng Anh, trong khi đó các nghiên cứu cho ngôn ngữ tiếng Việt lại khá hạn chế. Chính vì thế, chúng tôi đã tiến hành thử nghiệm trên bộ dữ liệu VQA tiếng Việt và so sánh với các phương pháp khác.
Từ khóa
đa phương thức, ngôn ngữ tiếng việt, trả lời câu hỏi qua hình ảnh, ngôn ngữ tự nhiên, Swin Transformer, Resnet, PhoBert