MÔ HÌNH CHÚ Ý NGỮ CẢNH ĐA TẦM NHÌN CẢI TIẾN CHO BÀI TOÁN TRẢ LỜI CÂU HỎI DỰA TRÊN HÌNH ẢNH BẰNG TIẾNG VIỆT

Bùi Anh Đài; Nguyễn Quốc Trung; Trần Thanh Nhã; Nguyễn Viết Hưng

doi:10.54607/hcmue.js.22.2.4328(2025)

PDF

Ngày xuất bản: 28/02/2025

Số lượt xem tóm tắt: 315
Số lượt xem PDF: 122

DOI: 10.54607/hcmue.js.22.2.4328(2025)

Số xuất bản

Tập 22 Số 2 (2025)

Chuyên mục

Bài viết

Trích dẫn bài báo

Bùi, A. Đ., Nguyễn, Q. T., Trần, T. N., & Nguyễn, V. H. (2025). MÔ HÌNH CHÚ Ý NGỮ CẢNH ĐA TẦM NHÌN CẢI TIẾN CHO BÀI TOÁN TRẢ LỜI CÂU HỎI DỰA TRÊN HÌNH ẢNH BẰNG TIẾNG VIỆT. Tạp chí Khoa học Trường Đại học Sư phạm Thành phố Hồ Chí Minh, 22(2), 247-259. https://doi.org/10.54607/hcmue.js.22.2.4328(2025)

Định dạng trích dẫn:

MÔ HÌNH CHÚ Ý NGỮ CẢNH ĐA TẦM NHÌN CẢI TIẾN CHO BÀI TOÁN TRẢ LỜI CÂU HỎI DỰA TRÊN HÌNH ẢNH BẰNG TIẾNG VIỆT

Bùi Anh Đài^1,, Nguyễn Quốc Trung, Trần Thanh Nhã, Nguyễn Viết Hưng
¹ trường đại học sư phạm thành phố hồ chí minh

Tóm tắt

Bài toán trả lời câu hỏi dựa trên hình ảnh là một bài toán tiêu biểu cho sự giao thoa giữa hai lĩnh vực thị giác máy tính (Computer Vision) và xử lí ngôn ngữ tự nhiên (Natural Language Processing). Bài toán này không chỉ có giá trị khoa học mà còn có giá trị to lớn trong thực tiễn cuộc sống. Việc tích hợp mô hình VQA vào các thiết bị di động có thể hỗ trợ người mù và người khiếm thị trong việc tiếp cận và hiểu nội dung hình ảnh. Phương pháp tiếp cận phổ biến hiện nay là rút trích đặc trưng từ từng vùng trong hình ảnh, giúp mô hình nắm bắt bối cảnh cục bộ. Tuy nhiên, phương pháp này thường bỏ qua bối cảnh toàn cục, ảnh hưởng đến khả năng tổng hợp thông tin và suy luận của mô hình. Các phương pháp hiện nay sử dụng Vision Transformer để rút trích đặc trưng toàn cục và cục bộ từ hình ảnh giúp cải thiện hiệu suất mô hình. Thêm vào đó, cơ chế chú ý đa phương thức (multimodal attention) cũng được áp dụng nhằm tối ưu hóa quá trình kết hợp thông tin giữa hình ảnh và câu hỏi, giúp mô hình có khả năng hiểu được ngữ cảnh và chú ý vào các đặc trưng quan trọng. Hiện nay, nhiều mô hình VQA được tối ưu cho dữ liệu tiếng Anh và một số mô hình được tối ưu cho ngôn ngữ tiếng Việt (ViVQA) đã được công bố. Bài báo này đề xuất một mô hình cải tiến từ mô hình Multi-vision Contextual Attention và đạt được độ chính xác là 62,41% so với mô hình gốc là 60% trên tập dữ liệu ViVQA.

Từ khóa

đa phương thức, ngôn ngữ tiếng Việt, ngôn ngữ tự nhiên, PhoBERT, ResNet, Swin Transformer, trả lời câu hỏi qua hình ảnh

Thông tin về tác giả

Bùi Anh Đài, trường đại học sư phạm thành phố hồ chí minh

Tài liệu tham khảo

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). VQA: Visual question answering. In Proceedings of the IEEE International Conference on Computer Vision, 2425-2433. https://doi.org/10.1109/ICCV.2015.279
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate (arXiv:1409.0473). arXiv. https://arxiv.org/abs/1409.0473
Bar-Hillel, Y. (1960). The present status of automatic translation of languages. Advances in Computers, 1, 91-163.
Chollet, F. (2017). Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp.1251-1258). https://doi.org/10.1109/CVPR.2017.195
Duan, T. D., Du, T. H., Phuoc, T. V., & Hoang, N. V. (2005, February). Building an automatic vehicle license plate recognition system. In Proceedings of the International Conference on Computer Science RIVF (Vol. 1, pp.59-63).
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
Jallouli, N., Elghniji, K., Hentati, O., Ribeiro, A. R., Silva, A. M., & Ksibi, M. (2016). UV and solar photo-degradation of naproxen: TiO₂ catalyst effect, reaction kinetics, products identification and toxicity assessment. Journal of Hazardous Materials, 304, 329-336. https://doi.org/10.1016/j.jhazmat.2015.10.045
Lagorio, A., Tistarelli, M., Cadoni, M., Fookes, C., & Sridharan, S. (2013, April). Liveness detection based on 3D face shape analysis. In 2013 International Workshop on Biometrics and Forensics (IWBF) (pp.1-4). IEEE. https://doi.org/10.1109/IWBF.2013.6547310
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4), 541-551. https://doi.org/10.1162/neco.1989.1.4.541
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp.10012-10022). https://doi.org/10.1109/ICCV48922.2021.00986
Nguyen, A. D., Le, T., & Nguyen, H. T. (2022, November). Combining multi-vision embedding in contextual attention for Vietnamese visual question answering. In Pacific-Rim Symposium on Image and Video Technology (pp.172185). Springer. https://doi.org/10.1007/978-3-031-26431-3_14
Nguyen, D. Q., & Nguyen, A. T. (2020). PhoBERT: Pre-trained language models for Vietnamese (arXiv:2003.00744). arXiv. https://doi.org/10.48550/arXiv.2003.00744
Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv. https://arxiv.org/abs/1409.1556
Tan, M., & Le, Q. V. (2019). EfficientNet: Rethinking model scaling for convolutional neural networks. In K. Chaudhuri & R. Salakhutdinov (Eds.), Proceedings of the 36th International Conference on Machine Learning (ICML 2019) (pp.6105-6114). PMLR.
Tran, D. M. N., Le, T., Nguyen, M. L., & Nguyen, H. T. (2022, October). Bi-directional cross-attention network on Vietnamese visual question answering. In Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation (pp.834-841).
Tran, K. Q., Nguyen, A. T., Le, A. T. H., & Van Nguyen, K. (2021). ViVQA: Vietnamese visual question answering. In Proceedings of the 35th Pacific Asia Conference on Language, Information and Computation (pp.683-691).
Tsoumakas, G., & Katakis, I. (2008). Multi-label classification: An overview. In Data Warehousing and Mining: Concepts, Methodologies, Tools, and Applications (pp.64-74). https://doi.org/10.4018/978-1-59904-951-9.ch005
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, 30. https://doi.org/10.48550/arXiv.1706.03762
Wang, W., Li, Y., Zou, T., Wang, X., You, J., & Luo, Y. (2020). A novel image classification approach via dense‐MobileNet models. Mobile Information Systems, 2020(1), Article 7602384. https://doi.org/10.1155/2020/7602384
Yu, Z., Yu, J., Cui, Y., Tao, D., & Tian, Q. (2019). Deep modular co-attention networks for visual question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp.6281-6290). https://doi.org/10.48550/arXiv.1906.10770

Thanh bên bài viết

Nội dung chính của bài viết

Tóm tắt

Từ khóa

Chi tiết bài viết

Bùi Anh Đài, trường đại học sư phạm thành phố hồ chí minh

Tài liệu tham khảo