XÂY DỰNG CÂY HỒI QUY ĐẢM BẢO TÍNH RIÊNG TƯ CHO TẬP DỮ LIỆU HUẤN LUYỆN BẰNG RIÊNG TƯ SAI BIỆT

Vũ Quốc Hoàng, Nguyễn Đình Thúc

Tóm tắt


 

Mô hình hóa dữ liệu là bài toán quan trọng trong phân tích dữ liệu cũng như trong học máy. Có nhiều phương pháp giải quyết bài toán mô hình hóa này, trong đó, cây hồi quy là phương pháp có nhiều ưu điểm so với các phương pháp hồi quy khác. Bên cạnh độ chính xác, khả năng giải thích của mô hình kết quả thì vấn đề đảm bảo tính riêng tư cho tập dữ liệu huấn luyện cũng rất quan trọng và đặt ra cấp thiết, đặc biệt với các dữ liệu cá nhân, nhạy cảm. Bài báo này đề xuất các phương pháp và thuật toán cơ bản để xây dựng cây hồi quy đảm bảo tính riêng tư dựa trên các kĩ thuậtriêng tư sai biệt. Kết quả thử nghiệm cho thấy tính khả thi đồng thời cũng mở ra những thách thức cần tiếp tục nghiên cứu, cải tiến.

 


Từ khóa


riêng tư sai biệt;phân tích dữ liệu đảm bảo tính riêng tư; hồi quy; cây hồi quy

Toàn văn:

PDF

Trích dẫn


Blum, A., Dwork, C., McSherry, F., & Nissim, K. (2005). Practical privacy: The SuLQ framework. PODS '05.

Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (2017). Classification and Regression Trees.

Dwork, C., McSherry, F., Nissim, K., & Smith, A. (2006). Calibrating Noise to Sensitivity in Private Data Analysis. J. Priv. Confidentiality, 7, 17-51.

Dwork, C., & Roth, A. (2014). The Algorithmic Foundations of Differential Privacy. Foundations and Trends in Theoretical Computer Science, 9, 211-407.

Fletcher, S., & Islam, M. Z. (2015). A Differentially Private Decision Forest. AusDM.

Fletcher, S., & Islam, M. Z. (2016). Decision Tree Classification with Differential Privacy: A Survey. ACM Comput. Surv., 52, 83:1-83:33.

Fletcher, S., & Islam, M. Z. (2017). Differentially Private Random Decision Forests using Smooth Sensitivity. ArXiv, abs/1606.03572.

Friedman, A., & Schuster, A. (2010). Data mining with differential privacy. KDD '10.

Han, J., Kamber, M., & Pei, J. (2012). Data mining concepts and techniques, third edition Morgan Kaufmann Publishers.

Jagannathan, G., Pillaipakkamnatt, K., & Wright, R. N. (2012). A Practical Differentially Private Random Decision Tree Classifier. 2012 IEEE International Conference on Data Mining Workshops, 114-121.

McSherry, F., & Talwar, K. (2007). Mechanism Design via Differential Privacy. 48th Annual IEEE Symposium on Foundations of Computer Science (FOCS'07), 94-103.

McSherry, F. (2009). Privacy integrated queries: an extensible platform for privacy-preserving data analysis. SIGMOD Conference.

Pace, R. K. & Barry, R. (1997). Sparse spatial autoregressions. Statistics & Probability Letters, 33,

-297.

Patil, A., & Singh, S. (2014). Differential private random forest. 2014 International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2623-2630.

Pedregosa et al. (2011). Scikit-learn: Machine Learning in Python. JMLR 12, 2825-2830.

Rana, S., Gupta, S. K., & Venkatesh, S. (2015). Differentially Private Random Forest with High Utility. 2015 IEEE International Conference on Data Mining, 955-960.

Sarwate, A. D., & Chaudhuri, K. (2013). Signal Processing and Machine Learning with Differential Privacy: Algorithms and Challenges for Continuous Data. IEEE Signal Processing Magazine, 30, 86-94.

Xin, B., Yang, W., Wang, S., & Huang, L. (2019). Differentially Private Greedy Decision Forest. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2672-2676.


Tình trạng

  • Danh sách trống