KHAI THÁC MẪU CHIẾM DỤNG CAO TRÊN CƠ SỞ DŨ LIỆU ĐỊNH LƯỢNG

Lê Tấn Long1,
1 Saigon University

Nội dung chính của bài viết

Tóm tắt

Khai thác mẫu chiếm dụng cao (High Occupancy Itemset – HOI) là một hướng nghiên cứu mới, hiện đang thu hút nhiều sự quan tâm trong lĩnh vực khai phá dữ liệu. Không giống như các mẫu phổ biến vốn dựa trên tần suất xuất hiện, HOI được định nghĩa là những tập danh mục chiếm tỷ lệ lớn trong độ dài của các giao dịch. So với các mẫu phổ biến, số lượng HOI thường ít hơn nhưng lại mang những đặc trưng có ý nghĩa hơn, hỗ trợ hiệu quả trong việc phân tích và trực quan hóa dữ liệu trong các hệ thống thông minh. Tuy nhiên, HOI chỉ chú trọng đến sự có mặt của các danh mục, mà chưa phản ánh sự khác biệt về trọng số giữa chúng. Để khắc phục hạn chế này, bài báo giới thiệu khái niệm mẫu chiếm dụng trọng số cao (High Weighted Occupancy Pattern – HWOP) và đề xuất thuật toán HWOP-ROL nhằm khai thác HWOP. Ngoài ra, chúng tôi cũng xây dựng một ngưỡng chặn trên UBWO để cắt tỉa không gian tìm kiếm. Kết quả thực nghiệm trên nhiều bộ dữ liệu chứng minh tính hiệu quả vượt trội của phương pháp đề xuất so với thuật toán nền.

Chi tiết bài viết

Tài liệu tham khảo

Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on Very Large Data Bases (VLDB’94), 487–499.
Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12(3), 372–390. DOI: 10.1109/69.846291
Grahne, G., & Zhu, J. (2005). Fast algorithms for frequent itemset mining using FP-trees. IEEE Transactions on Knowledge and Data Engineering, 17(10), 1347–1362. DOI:10.1109/TKDE.2005.166
Deng, Z. H., Wang, Z. H., & Jiang, J. J. (2012). A new algorithm for fast mining frequent itemsets using N-lists. Science China Information Sciences, 55(9), 2008–2030. https://doi.org/10.1007/s11432-012-4638-z.
Ramkumar, G. D., Ranka, S., & Tsur, S. (1998). Weighted association rules: Model and algorithm. In Proceedings of the Fourth ACM International Conference on Knowledge Discovery and Data Mining (KDD’98) (pp. 1–13).
Vo, B., Coenen, F., & Le, B. (2013). A new method for mining frequent weighted itemsets based on WIT-trees. Expert Systems with Applications, 40(4), 1256–1264. https://doi.org/10.1016/j.eswa.2012.08.065.
Nguyen, H., Vo, B., Nguyen, M., & Pedrycz, W. (2016). An efficient algorithm for mining frequent weighted itemsets using interval word segments. Applied Intelligence, 45(4), 1008–1020. DOI: 10.1007/s10489-016-0799-6
Bui, H., Vo, B., Nguyen, H., Nguyen-Hoang, T. A., & Hong, T. P. (2018). A weighted N-list-based method for mining frequent weighted itemsets. Expert Systems with Applications, 96, 388–405. https://doi.org/10.1016/j.eswa.2017.10.039
Tang, L., Zhang, L., Luo, P., & Wang, M. (2012). Incorporating occupancy into frequent pattern mining for high-quality pattern recommendation. In Proceedings of the 21st ACM International Conference on Information and Knowledge Management (CIKM’12) (pp. 75–84). DOI: 10.1145/2396761.2396775
Deng, Z. H. (2020). Mining high occupancy itemsets. Future Generation Computer Systems, 102, 222–229. https://doi.org/10.1016/j.future.2019.07.039
Nguyen, L. T., Mai, T., Pham, G. H., Yun, U., & Vo, B. (2023). An efficient method for mining high occupancy itemsets based on equivalence class and early pruning. Knowledge-Based Systems, 267, 110441. DOI:10.1016/j.knosys.2023.110441