HAI THÁC CÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TRỌNG SỐ ĐỘNG
Nội dung chính của bài viết
Tóm tắt
Khai thác các mẫu là một trong những bài toán cơ bản của khai thác dữ liệu hiện đại. Trong đó khai thác mẫu trên các loại cơ sở dữ liệu có định lượng (Frequent weighted patterns -PWPs) là một bài toán quan trọng của khai thác mẫu, đây là bài toán nhằm tìm ra các mẫu phổ biến trên cơ sở dữ liệu (CSDL) định lượng. Tuy nhiên các nghiên cứu hiện tại chưa quan tâm đến các CSDL định lượng có sự thay đổi trọng số của các mục (dynamic weighted Database - dWDB). Trong thực tế, nhiều CSDL mà trọng số của các mục có thể thay đổi theo thời gian, khi trọng số của các mục đại diện cho mức độ quan trọng như lợi nhuận của các mặt hàng hay mức độ quan trọng của các mặt hàng trong từng thời điểm nhất định (Ví dụ máy lạnh sẽ được bán nhiều vào mùa hè, khẩu trang y tế sẽ có vai trò quan trọng trong các đợt dịch thông qua đường hô hấp...). Trong bài báo này, trước hết chúng tôi giới thiệu một bài toán mới về khai thác PWPs với các mục có trọng số động từ cơ sở dữ liệu định lượng - CSDL định lượng động. Tiếp theo, một thuật toán gọi là dFWNL được phát triển sử dụng cấu trúc dữ liệu mới là dWNList để khai thác PWPs từ dWDB. Cuối cùng, chúng tôi thực hiện thực nghiệm trên nhiều dWDB khác nhau để chứng minh hiệu quả của các thuật toán đề xuất.
Từ khóa
CSDL trọng số động, mẫu phổ biến, cấu trúc WNlist, CSDL trọng số
Chi tiết bài viết
Tài liệu tham khảo
Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), 487-499.
Baek Y, Yun U, Lin JCW, Yoon E, Fujita H (2020) Efficiently mining erasable stream patterns for intelligent systems over uncertain data. Int J Intell Syst, 35(11), 1699-1734. https://doi.org/10.1002/int.22269
Bui, H., Vo, B., Nguyen, H., Nguyen-Hoang, T. A., & Hong, T. P. (2018). A weighted N-list-based method for mining frequent weighted itemsets. Expert Systems with Applications, 96, 388-405. https://doi.org/10.1016/j.eswa.2017.10.039
Deng, Z., Wang, Z., & Jiang, J. (2012). A new algorithm for fast mining frequent itemsets using N-lists. Science China Information Sciences, 55(9), 2008-2030. https://doi.org/10.1007/s11432-012-4638-z
Han, J., Pei, J., & Yin, Y. (2000). Mining frequent patterns without candidate generation. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 1-12. https://doi.org/10.1145/335191.33537
Kim, H., Yun, U., Baek, Y., Kim, H., Nam, H., Lin, J. C., & Fournier-Viger, P. (2021) Damped sliding based utility oriented pattern mining over stream data. Knowl-Based Syst.
https://doi.org/10.1016/j.knosys.2020.106653Get rights and content
Lee, G., Yun, U., & Ryu, K. (2017). Mining frequent weighted itemsets without storing transaction IDs and generating candidates. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 25(1), 111-144. https://doi.org/10.1142/S0218488517500052
Nguyen, H., Le, T., Nguyen, M., Fournier-Viger, P., Tseng, V. S., & Vo, B. (2022). Mining frequent weighted utility itemsets in hierarchical quantitative databases. Knowledge-Based Systems, 237, 107709. https://doi.org/10.1016/j.knosys.2021.107709
Nguyen, H., Vo, B., Nguyen, M., & Pedrycz, W. (2016). An efficient algorithm for mining frequent weighted itemsets using interval word segments. Applied Intelligence, 45(4), 1008-1020. https://doi.org/10.1007/s10489-016-0799-6
Tao, F., Murtagh, F., & Farid, M. (2003). Weighted association rule mining using weighted support and significance framework. Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 661-666. https://doi.org/10.1145/956750.956836
Vo, B., Bui, H., Vo, T., & Le, T. (2020). Mining top-rank-k frequent weighted itemsets using WN-list structures and an early pruning strategy. Knowledge-Based Systems, 201-202, 106064. https://doi.org/10.1016/j.knosys.2020.106064
Vo, B., Coenen, F., & Le, B. (2013). A new method for mining frequent weighted itemsets based on WIT-Tree. Expert Systems with Applications, 40(4), 1256-1264. https://doi.org/10.1016/j.eswa.2012.08.065
Vo, B., Le, T., Coenen, F., & Hong, T. (2016). Mining frequent itemsets using the N-list and subsume concepts. International Journal of Machine Learning and Cybernetics, 7(2), 253-265. https://doi.org/10.1007/s13042-014-0252-2.
Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12(3), 372-390. https://doi.org/10.1109/69.846291