MÔ HÌNH C-ViDNet HỖ TRỢ PHÁT HIỆN BẠO LỰC TRONG HỌC ĐƯỜNG
Nội dung chính của bài viết
Tóm tắt
Bạo lực học đường là một vấn đề phức tạp và đáng lo ngại trong hệ thống giáo dục của nhiều quốc gia trên thế giới, trong đó có Việt Nam. Mặc dù đã có nhiều mô hình phát hiện bạo lực tự động được phát triển dựa trên trí tuệ nhân tạo, nhưng việc triển khai thực tế vẫn còn gặp nhiều khó khăn do độ phức tạp và chi phí tính toán lớn. Để khắc phục các hạn chế này, nghiên cứu của chúng tôi đề xuất xây dựng một mô hình C-ViDNet (Campus Violence Detection Network) phát hiện bạo lực học đường tự động với số lượng tham số nhỏ nhằm tăng cường khả năng phát hiện và phản ứng nhanh với các vụ việc bạo lực trong môi trường giáo dục. Đầu tiên, YOLOX được sử dụng để xác định của những người xuất hiện trong khung hình. Tiếp theo, tư thế của những người này được trích xuất bằng HRNet và chuyển đổi thành 3D Heatmap Volumes, giúp giảm nhiễu và loại bỏ các yếu tố nền không cần thiết. Sau đó, một kiến trúc gồm hai luồng được triển khai để học các đặc trưng từ 3D Heatmap Volumes. Trong đó, một luồng tập trung vào đặc trưng không gian của tư thế, trong khi luồng còn lại theo dõi sự thay đổi tư thế của con người giữa các khung hình. Kết quả từ C-ViDNet cho thấy tiềm năng trong việc phát triển mô hình phát hiện bạo lực học đường tự động. Giải pháp này không chỉ giảm bớt sự phụ thuộc vào giám sát thủ công mà còn đảm bảo phát hiện kịp thời các tình huống bạo lực, hỗ trợ nhà trường trong việc xây dựng môi trường an toàn hơn cho học sinh.
Từ khóa
bạo lực, bạo lực học đường, nhận dạng hành vi, thị giác máy tính, xử lí ảnh, Yolo
Chi tiết bài viết
Tài liệu tham khảo
TÀI LIỆU THAM KHẢO
Abdali, A. R. (2021). Data efficient video transformer for violence detection. 2021 IEEE International Conference on Communication, Networks and Satellite (COMNETSAT)
(pp. 195-199). IEEE. https://doi.org/10.1109/COMNETSAT53002.2021.9530829
Bermejo Nievas, E., Deniz Suarez, O., Bueno García, G., & Sukthankar, R. (2011). Violence detection in video using computer vision techniques. In Computer Analysis of Images and Patterns: 14th International Conference, CAIP 2011, Seville, Spain, August 29-31, 2011, Proceedings, Part II (pp. 332-339). Springer. https://doi.org/10.1007/978-3-642-22993-9_42
Bianculli, M., Falcionelli, N., Sernani, P., Tomassini, S., Contardo, P., Lombardi, M., & Dragoni, A. F. (2020). A dataset for automatic violence detection in videos. Data in Brief, 33,
Article 106587. https://doi.org/10.1016/j.dib.2020.106587
Divya, A., Lakshmi, D. S., Niveditha, P. L. N., Sri, P. S. N. S., Rohith, V., & Tati, V. B. (2024). Dual-stage deep learning framework for effective public physical violence detection. In 2024 IEEE 13th International Conference on Communication Systems and Network Technologies (CSNT) (pp. 637-642). IEEE. https://doi.org/10.1109/CSNT60213.2024.10545798
Duan, H., Zhao, Y., Chen, K., Lin, D., & Dai, B. (2022). Revisiting skeleton-based action recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2969-2978). https://doi.org/10.1109/CVPR52688.2022.00298
Ghalley, A., Abdelsalam, A., Dombola, W., & Choudhary, M. S. (2024). Violence detection in automated surveillance using CNN. In 2024 4th International Conference on Intelligent Technologies (CONIT) (pp. 1-6). IEEE. https://doi.org/10.1109/CONIT61985.2024.10626390
Government. (2017). Nghị định số 80/2017/NĐ-CP: Quy định về môi trường giáo dục an toàn, lành mạnh, thân thiện, phòng, chống bạo lực học đường [Decree No. 80/2017/ND-CP: Regulations on a safe, healthy, and friendly educational environment and prevention of school violence].
Halder, R., & Chatterjee, R. (2020). CNN-BiLSTM model for violence detection in smart surveillance. SN Computer Science, 1(4), Article 201. https://doi.org/10.1007/s42979-020-00324-9
Huszár, V. D., Adhikarla, V. K., Négyesi, I., & Krasznay, C. (2023). Toward fast and accurate violence detection for automated video surveillance applications. IEEE Access, 11, 18772-18793. https://doi.org/10.1109/ACCESS.2023.3245521
Islam, Z., Rukonuzzaman, M., Ahmed, R., Kabir, M. H., & Farazi, M. (2021). Efficient two-stream network for violence detection using separable convolutional LSTM. In 2021 International Joint Conference on Neural Networks (IJCNN) (pp. 1-8). IEEE. https://doi.org/10.1109/IJCNN52387.2021.9533586
Khan, M., et al. (2024). Action knowledge graph for violence detection using audiovisual features. In 2024 IEEE International Conference on Consumer Electronics (ICCE) (pp. 1-5). IEEE. https://doi.org/10.1109/ICCE59016.2024.10444158
Kumar, M., Patel, A. K., Biswas, M., & Shitharth, S. (2023). Attention-based bidirectional long short-term memory for abnormal human activity detection. Scientific Reports, 13(1), Article 14442. https://doi.org/10.1038/s41598-023-14442-1
Li, J., Jiang, X., Sun, T., & Xu, K. (2019). Efficient violence detection using 3D convolutional neural networks. In 2019 16th IEEE International Conference on Advanced Video and Signal-Based Surveillance (AVSS) (pp. 1-8). IEEE. https://doi.org/10.1109/AVSS.2019.8909883
Parui, S. K., Biswas, S. K., Das, S., Chakraborty, M., & Purkayastha, B. (2023). An efficient violence detection system from video clips using ConvLSTM and keyframe extraction. In 2023 11th International Conference on Internet of Everything, Microwave Engineering, Communication and Networks (IEMECON) (pp. 1-5). IEEE. https://doi.org/10.1109/IEMECON123456
Rutherford, A., Zwi, A. B., Grove, N. J., & Butchart, A. (2007). Violence: A glossary. Journal of Epidemiology & Community Health, 61(8), 676-680. https://doi.org/10.1136/jech.2005.043711
Santos, F., Durães, D., Marcondes, F. S., Hammerschmidt, N., Lange, S., Machado, J., & Novais, P. (2021). In-car violence detection based on the audio signal. In Intelligent Data Engineering and Automated Learning – IDEAL 2021 (Vol. 13113, pp. 525-535). Lecture Notes in Computer Science. Springer. https://doi.org/10.1007/978-3-030-91608-4_43
Sernani, P., Falcionelli, N., Tomassini, S., Contardo, P., & Dragoni, A. F. (2021). Deep learning for automatic violence detection: Tests on the AIRTLab dataset. IEEE Access, 9, 160580-160595. https://doi.org/10.1109/ACCESS.2021.3051347
Siddique, L. A., Junhai, R., Reza, T., Khan, S. S., & Rahman, T. (2022). Analysis of real-time hostile activity detection from spatiotemporal features using time distributed deep CNNs, RNNs, and attention-based mechanisms. In 2022 IEEE 5th International Conference on Image Processing Applications and Systems (IPAS) (pp. 1-6). IEEE. https://doi.org/10.1109/IPAS56160.2022.00016
Soliman, M. M., Kamal, M. H., El-Massih Nashed, M. A., Mostafa, Y. M., Chawky, B. S., & Khattab, D. (2019). Violence recognition from videos using deep learning techniques. In 2019 Ninth International Conference on Intelligent Computing and Information Systems (ICICIS)
(pp. 80-85). IEEE. https://doi.org/10.1109/ICICIS46948.2019.9014714
UNICEF. (2021). Protecting children from violence in school. Retrieved September 6, 2024, from https://www.unicef.org/protection/violence-against-children-in-school
World Health Organization, Regional Office for the Eastern Mediterranean. (2024). Violence. Retrieved September 30, 2024, from https://www.emro.who.int/health-topics/violence/index.html
Wu, P., Liu, X., & Liu, J. (2023). Weakly supervised audio-visual violence detection. IEEE Transactions on Multimedia, 25, 1674-1685. https://doi.org/10.1109/TMM.2022.3147369
Yildiz, A. M., Barua, P. D., Dogan, S., Baygin, M., Tuncer, T., Ooi, C. P., Fujita, H., & Acharya, U. R. (2023). A novel tree pattern-based violence detection model using audio signals. Expert Systems with Applications, 224, Article 120031. https://doi.org/10.1016/j.eswa.2023.120031