KHAI THÁC CÁC MẪU PHỔ BIẾN TRÊN CƠ SỞ DỮ LIỆU TRỌNG SỐ ĐỘNG
Nội dung chính của bài viết
Tóm tắt
Khai thác các mẫu là một trong những bài toán cơ bản của khai thác dữ liệu hiện đại. Trong đó khai thác mẫu trên các loại cơ sở dữ liệu có định lượng (Frequent weighted itemsets -FWIs) là một bài toán quan trọng của khai thác mẫu, đây là bài toán nhằm tìm ra các mẫu phổ biến trên CSDL định lượng. Tuy nhiên các nghiên cứu hiện tại chưa quan tâm đến các CSDL định lượng có sự thay đổi trọng số của các mục (dynamic weighted Database - dWDB). Trong thực tế, nhiều CSDL mà trọng số của các mục có thể thay đổi theo thời gian, khi trọng số của các mục đại diện cho mức độ quan trọng như lợi nhuận của các mặt hàng hay mức độ quan trọng của các mặt hàng trong từng thời điểm nhất định (Ví dụ máy lạnh sẽ được bán nhiều vào mùa hè, khẩu trang y tế sẽ có vai trò quan trọng trong các đợt dịch thông qua đường hô hấp...). Trong bài báo này, trước hết chúng tôi giới thiệu một bài toán mới về khai thác FWIs với các mục có trọng số động từ cơ sở dữ liệu định lượng - CSDL định lượng động. Sau đó, chúng tôi sử dụng cấu trúc tidset truyền thống, đề xuất một thuật toán gọi là dFWIT giải quyết vấn đề này. Tiếp theo, một thuật toán gọi là dFWNL được phát triển sử dụng cấu trúc dữ liệu mới là dWNList để khai thác FWIs từ dWDB. Cuối cùng, chúng tôi thực hiện thực nghiệm trên nhiều dWDB khác nhau để chứng minh hiệu quả của các thuật toán đề xuất.
Từ khóa
CSDL trọng số, mẫu phổ biến, CSDL trọng số động, cấu trúc WNlist.
Chi tiết bài viết
Tài liệu tham khảo
Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), 487–499.
Bui, H., Vo, B., Nguyen, H., Nguyen-Hoang, T. A., & Hong, T. P. (2018). A weighted N-list-based method for mining frequent weighted itemsets. Expert Systems with Applications, 96, 388–405.
Bui, H., Vo, B., Nguyen-Hoang, T. A., & Yun, U. (2020). Mining frequent weighted closed itemsets using the WN-list structure and an early pruning strategy. Applied Intelligence, 51, 1439–1459.
Deng, Z., Wang, Z., & Jiang, J. (2012). A new algorithm for fast mining frequent itemsets using N-lists. Science China Information Sciences, 55(9), 2008–2030.
Han, J., Pei, J., & Yin, Y. (2000). Mining frequent patterns without candidate generation. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 1–12.
Lee, G., Yun, U., & Ryu, K. (2017). Mining frequent weighted itemsets without storing transaction IDs and generating candidates. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 25(1), 111–144.
Nguyen, H., Le, T., Nguyen, M., Fournier-Viger, P., Tseng, V. S., & Vo, B. (2022). Mining frequent weighted utility itemsets in hierarchical quantitative databases. Knowledge-Based Systems, 237, 107709.
Nguyen, H., Vo, B., Nguyen, M., & Pedrycz, W. (2016). An efficient algorithm for mining frequent weighted itemsets using interval word segments. Applied Intelligence, 45(4), 1008–1020.
Nguyen, H., Vo, B., Nguyen, M. T. H., & Hong, T. (2015). An improved algorithm for mining frequent weighted itemsets. 2015 IEEE International Conference on Systems, Man, and Cybernetics, 2544–2549.
Tao, F., Murtagh, F., & Farid, M. (2003). Weighted association rule mining using weighted support and significance framework. Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 661–666.
Vo, B., Bui, H., Vo, T., & Le, T. (2020). Mining top-rank-k frequent weighted itemsets using WN-list structures and an early pruning strategy. Knowledge-Based Systems, 201–202, 106064.
Vo, B., Coenen, F., & Le, B. (2013). A new method for mining frequent weighted itemsets based on WIT-Tree. Expert Systems with Applications, 40(4), 1256–1264.
Vo, B., Le, T., Coenen, F., & Hong, T. (2016). Mining frequent itemsets using the N-list and subsume concepts. International Journal of Machine Learning and Cybernetics, 7(2), 253–265.
Vo, B., Le, T., Hong, T., & Le, B. (2014). An effective approach for maintenance of pre-large-based frequent-itemset lattice in incremental mining. Applied Intelligence, 41(3), 759–775.
Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12(3), 372–390.