Ứng dụng các phương pháp học tập kết hợp trong dự báo độ mặn của nước
10/05/2022TN&MTĐộ mặn là một yếu tố quan trọng trong việc xác định nhiều khía cạnh hóa học của nước tự nhiên và các quá trình sinh học bên trong nó. Dự báo độ mặn chính xác có thể hỗ trợ việc ra quyết định quản lý tài nguyên nước để giảm thiểu nguy cơ thiếu nguồn cung cấp nước ngọt ở các cửa sông đông dân cư. Các phương pháp thống kê có chi phí thấp và tốn ít thời gian hơn so với các mô hình số và mô hình vật lý để dự đoán các biến đổi độ mặn của cửa sông. Các công trình nghiên cứu gần đây đã đạt được thành công hợp lý trong việc dự đoán độ mặn. Tuy nhiên, mức độ chính xác của các mô hình đã được đề xuất cần được cải thiện. Bài báo này áp dụng và so sánh các phương pháp học tập thể cho bài toán dự đoán độ mặn. Kết quả thực nghiệm cho thấy nhóm thuật toán Bagging Ensemble Learning cho kết quả tốt nhất.
Abstract: Salinity is an important factor in determining many aspects of the chemistry of natural waters and of biological processes within it. Accurate salinity prediction can support the decision-making of water resources management to mitigate the threat of insufficient freshwater supply in densely populated estuaries. Statistical methods are low-cost and less time-consuming compared with numerical models and physical models for predicting estuarine salinity variations. Recent research works have achieved reasonable success in predicting the salinity. However, the accuracy levels of already proposed models are to be need improved. In the current work we apply and compare Ensemble Learning methods for salinity prediction problem. Experimental results demonstrate in this problem, the group of Bagging Ensemble Learning algorithms gives the best results.
Giới thiệu
Chất lượng nước là một chỉ tiêu quan trọng đụng chạm tới tất cả khía cạnh của hệ sinh thái và đời sống con người, như sức khỏe cộng đồng, sản xuất lương thực, hoạt động kinh tế và đa dạng sinh học. Các phương pháp dự báo chất lượng nước đang áp dụng có thể chia ra hai dạng: Dựa trên đề xuất bảo toàn theo thời gian xu hướng của quá trình diễn ra trong đối tượng nước vào thời kỳ nghiên cứu chúng (phương pháp ngoại suy hay phương pháp khoanh vùng), và dựa trên cơ sở mô phỏng toán học hay nghiên cứu vật lý các quá trình thủy động lực, quá trình lý hóa và các quá trình khác diễn ra trong thủy vực và sông ngòi và tính đến qui luật thay đổi trạng thái của đối tượng nước với sự thay thế các nhân tố chính xác định trạng thái này - mô hình hóa quá trình (toán học, vật lý, phòng thí nghiệm) hoặc tạo ra các đối tượng mô hình, lãnh thổ, khu vực. Theo thời gian dự kiến dự báo có thể là hạn ngắn hoặc hạn dài. Hiện nay các phương pháp học máy (machine learning) trong trí tuệ nhân tạo như mạng nơ ron (Neural Networks), học sâu (Deep learning), K láng giềng gần nhất (k-Nearest Neighbors),... cũng đã được áp dụng cho bài toán dự báo chất lượng nước [2][5].
Độ mặn trong sông, hồ và đại dương về mặt khái niệm rất đơn giản, nhưng về mặt kỹ thuật nó là một thách thức để xác định và đo lường chính xác. Dự báo độ mặn chính xác có thể hỗ trợ việc ra quyết định quản lý tài nguyên nước để giảm thiểu nguy cơ thiếu nguồn cung cấp nước ngọt ở các cửa sông đông dân cư. Trong nghiên cứu này chúng tôi áp dụng và đánh gía hiệu suất của các phương pháp học tập kết hợp (Ensemble Learning) bao gồm bao đóng (bagging), xếp chồng (stacking) và tăng cường (boosting ) để dự đoán độ mặn của nước.
Trong thống kê và học máy, các phương pháp học tập kết hợp sử dụng nhiều thuật toán học tập để có được hiệu suất dự đoán tốt hơn những gì có thể thu được từ bất kỳ thuật toán học tập cấu thành nào. Học tập kết hợp là quá trình mà nhiều mô hình, chẳng hạn như bộ phân loại hoặc chuyên gia, được tạo ra và kết hợp một cách chiến lược để giải quyết một vấn đề trí tuệ tính toán cụ thể. Học theo nhóm chủ yếu được sử dụng để cải thiện hiệu suất (phân loại, dự đoán, tính gần đúng hàm,...) của một mô hình hoặc giảm khả năng lựa chọn không may một mô hình kém. Nhiều nghiên cứu thực nghiệm và lý thuyết đã chứng minh rằng các mô hình kết hợp thường đạt độ chính xác cao hơn các mô hình đơn lẻ.
Trong [6] các tác giả đã thử nghiệm các phương pháp học tập kết hợp khác nhau cho bài toán dự báo chất lượng nước sông Kinta, Perak, Malaysia. Kết quả thực nghiệm cho thấy các phương pháp học tập kết hợp cho kết quả tốt hơn so với các phương pháp học tập thông thường.
Phương pháp học tập kết hợp
Phương pháp học tập kết hợp là kỹ thuật tạo ra nhiều mô hình và sau đó kết hợp chúng lại để tạo ra kết quả được cải thiện hơn. Các phương pháp học tập kết hợp thường tạo ra các giải pháp chính xác hơn so với một mô hình đơn lẻ.
Các phương pháp Ensemble Learning được chia thành 3 loại sau đây: Bagging (đóng bao); boosting (tăng cường); stacking (xếp chồng).
Bagging: Thuật toán Bagging được đề xuất bởi Breiman [2] và mục đích của nó là để cải thiện hiệu quả dự đoán đối với vấn đề mất cân bằng dữ liệu khi chỉ áp dụng một thuật toán đơn như Decision tree hoặc Neural Network. Thuật toán này được trình bày như sau: đầu tiên, cho một tập dữ liệu và một thuật toán đơn bất kỳ. Trong tập dữ liệu ban đầu, phương pháp Bootstrap được sử dụng để chia tập dữ liệu ban đầu thành các tập dữ liệu huấn luyện con có kích thước bằng nhau. Tiếp theo áp dụng một thuật toán đối với từng tập dữ liệu huấn luyện riêng tương ứng với một mô hình dự đoán. Cuối cùng kết quả dự đoán sẽ sử dụng giá trị trung bình “Mean” kết quả của các mô hình trên. Ngoài ra, sử dụng phương pháp “Voting” để tạo ra các kết quả phân lớp cho bài toán phân lớp.
Boosting: Boosting được giới thiệu bởi [7] sử dụng thuật toán cây quyết định để tạo các mô hình mới. Boosting gán trọng số cho các mô hình dựa trên hiệu suất của chúng. Có nhiều biến thể của thuật toán Boosting như LogitBoost (LB) và AdaBoost (AB). Schapire đã chứng minh rằng các kỹ thuật học yếu (tốt hơn một chút so với đoán ngẫu nhiên) có thể được kết hợp với mục đích tạo ra một cụm hoặc một nhóm các kỹ thuật máy học yếu từ đó tạo thành một mô hình mạnh duy nhất. Kỹ thuật Boosting hoạt động như sau:
Gán trọng số bằng nhau cho tất cả các tập con trong tập dữ liệu; với mỗi lần lặp m thực hiện: Áp dụng kỹ thuật máy học vào các tập dữ liệu có trọng số và lưu trữ kết quả của từng mô hình lại; tính sai số error err cho mỗi mô hình; nếu giá trị của err bằng 0 hoặc lớn hơn hoặc bằng 0,5 thì dừng; đối với mỗi tập con trong tập dữ liệu: Nếu mỗi tập được dự đoán chính xác bởi mô hình thì nhân với trọng số err / (1-err); chuẩn hóa trọng số tương ứng cho từng trường hợp.
Stacking: Stacking là một biến thể của mô hình máy học kết hợp - ensemble learning còn được gọi là phương pháp meta-learning, bao gồm một hệ thống phân cấp các bộ phân loại khác nhau. Mục tiêu của stacking là để xây dựng một bộ phân loại cấp độ meta có thể dự đoán nhãn đích của tập dữ liệu bằng cách kết hợp kết quả các dự đoán từ các bộ phân loại riêng biệt. Tương tự như Boosting, Stacking sử dụng các sơ đồ trọng số phức tạp so với bagging sử dụng các sơ đồ trọng số đồng nhất đơn giản [9]. Một số tài liệu nghiên cứu cho thấy rằng Stacking có thể tạo ra hiệu suất tốt hơn so với Voting [8].
Thực nghiệm
Tập dữ liệu: Bán đảo Cà Mau, một tiểu vùng của Đồng bằng sông Cửu Long Việt Nam, đóng một vai trò cực kỳ quan trọng và quyết định đối với an ninh lương thực của cả nước. Do ảnh hưởng của chế độ thủy văn phức tạp, sự xâm nhập của nước biển vào mùa khô hàng năm đã gây ra những rào cản và hạn chế cho các hoạt động canh tác nông nghiệp hiện nay.
Tại Bán đảo Cà Mau, nước mặn xâm nhập vào thị xã Ngã Năm trên kênh Quản Lộ-Phụng Hiệp và giữa kênh Nàng Rén-Cái Trầu-Phú Lộc, tiếp giáp với nước mặn từ sông Cái Lớn-Cái Bé, tạo thành gọng kìm bao vây khu vực trung tâm Bán đảo Cà Mau.
Việc xây dựng mô hình trí tuệ nhân tạo, từ đó có thể dự đoán các giá trị độ mặn khi chuỗi dữ liệu đo được không có hoặc không đầy đủ để làm đầu vào cho các bài toán khác là rất cần thiết.
Trong bài báo này, chúng tôi đã sử dụng mô hình học tập thể để dự đoán độ mặn của nước. Để làm được điều đó, chúng tôi đã thu thập 471 mẫu nước từ 25 giếng ở Bán đảo Cà Mau. Mỗi mẫu có 10 tham số quan trọng, cụ thể là: Na, K, Ca2, Mg2, Fe3, Fe2, Al3, NH4, Cl, SO4, HC03, CO3, NCO3, Hardness_general, NO3, Hardness_temporal, hardness_permanent, Ph, CO2_free, CO2_depend, CO2_infiltrate, SiO2, Color, Tds105, Tds180 and Salinity. Tham số Salinity cho biết độ mặn của nước, tham số này có 5 giá trị là: nhạt, mặn, hơi mặn, lợ và hơi lợ. Bài toán trên có thể quy về bài toán phân loại với đầu ra có 5 lớp.
Kết quả thực nghiệm
Phương pháp Bagging: Bagging tổng hợp còn được gọi là Bootstrap, là một thuật toán tổng hợp máy học được thiết kế để cải thiện tính ổn định và độ chính xác của các thuật toán máy học được sử dụng trong phân loại và hồi quy thống kê. Nó cũng làm giảm phương sai và giúp tránh trang bị quá nhiều. Mặc dù, nó thường được áp dụng cho các giải thuật cây quyết định (Decision Trees), nhưng nó cũng có thể được sử dụng với bất kỳ loại phương thức nào. Đóng bao là một trường hợp đặc biệt của phương pháp lấy trung bình mô hình. Ở đây, chúng tôi áp dụng các giải thuật Bagged Decision Trees, Random Forest, Extra Trees trong phương pháp đóng bao. Để so sánh hiệu quả của các giải thuật trong mô hình học tập thể chúng tôi sử dụng phương pháp 10-Fold Cross-Validation với các tập dữ liệu bạn đầu được chia ngẫu nhiên thành 10 tập con, trong đó 9 tập sẽ được sử dụng như tập huấn luyện và 1 tập còn lại là tập kiểm tra. Kết quả cuối cùng là trung bình giá trị sau các lần lặp.
Bảng 1. Kết quả độ chính xác của các phương pháp học tập theo nhóm đóng bao
Phương pháp Stacking: Stacking là một phương pháp kết hợp các dự đoán từ nhiều mô hình học máy trên cùng một tập dữ liệu. Kiến trúc của mô hình xếp chồng bao gồm hai hoặc nhiều mô hình cơ sở, thường được gọi là mô hình mức 0 và một siêu mô hình kết hợp các dự đoán của các mô hình cơ sở, được gọi là Mô hình mức 1.
Trong nghiên cứu này, chúng tôi sử dụng các thuật toán Hồi quy tuyến tính (Logistic Regression), K láng giềng gần nhất (k-Nearest Neighbors), Cây quyết định (Decision Tree), Máy hỗ trợ Vector (Support Vector Machine) và Naive Bayes làm mô hình cơ sở:
Mỗi thuật toán sẽ được đánh giá sử dụng các tham số ngầm định, sau đó các mô hình này được kết hợp thành một mô hình kết hợp nhờ sử dụng phương pháp xếp chồng. Chúng tôi sử dụng giải thuật hồi quy logistic ở mô hình mức 1 để kết hợp kết quả dự đoán từ các mô hình mức 0 và sử dụng phương pháp 10-Fold Cross-Validation để đánh giá hiệu quả.
Bảng 2. Kết quả độ chính xác của các phương pháp học tập kết hợp xếp chồng
Bảng 3. Kết quả độ chính xác của các phương pháp học tập tập thể tăng cường
Phương pháp Stacking Boosting: Tăng cường là một kỹ thuật tổng hợp cố gắng tạo ra một bộ phân loại mạnh từ một số bộ phân loại yếu. Chúng tôi sử dụng giải thuật AdaBoost, Gradient Boosting và Extreme Gradient Boosting cho bài toán phân loại. Mỗi thuật toán cũng sẽ được đánh giá bằng cách sử dụng sử dụng phương pháp 10-Fold Cross-Validation với tham số của các thuật toán là mặc định.
Trong trường hợp này, chúng ta có thể thấy rằng giải thuật Extreme Gradient Boosting cho kết quả tốt hơn giải thuật AdaBoost và Gradient Boosting.
Kết luận
Trong bài viết này, chúng tôi tìm hiểu ba phương pháp học tập thể tiêu chuẩn cho máy học và áp dụng chúng vào bài toán dự đoán độ mặn của nước. Kết quả thực nghiệm cho thấy phương pháp đóng bao cho kết quả tốt nhất. Những bộ phân loại tổng hợp này thực sự phù hợp để phân loại tập dữ liệu nhưng cần có một cách tiếp cận khác để tìm ra bộ phân loại chính xác nhất nhằm cải thiện độ chính xác của tập dữ liệu. Trong tương lai, chúng tôi sẽ áp dụng phương pháp tối ưu hóa bầy đàn trong việc lựa chọn các tham số cho các giải thuật ở mô hình cơ sở nhằm nâng cao độ chính xác của mô hình.
Tài liệu tham khảo
1. Cha Zhang, Yunqian Ma, Ensemble Machine Learning Methods and Applications, Springer Science+Business Media, LLC 2012;
2. Jian Zhou, Yuanyuan Wang, Fu Xiao, Yunyun Wang. Lijuan Sun, Water Quality Prediction Method Based on IGRA and LSTM, MDPI, 2018;
3. Panagiotis Pintelas, Ioannis E. Livieris, Ensemble Algorithms and Their Applications, ISBN 978-3-03936-959-1;
4. Theyazn H. H Aldhyani, etc, Water Quality Prediction Using Artificial Intelligence Algorithms, Applied Bionics and Biomechanics, Volume 2020;
5. Theyazn H. H Aldhyani, Mohammed Al-Yaari, Hasan Alkahtani, and Mashael Maashi, Water Quality Prediction Using Artificial Intelligence Algorithms, Applied Bionics and Biomechanics Journal, 2020 Stacking;
6. Rosaida Rosly1, Mokhairi Makhtar2, Mohd Khalid Awang3, Nordin Abdul Rahman4 and Mustafa Mat Deris5, Comparison of Ensemble Classifiersfor Water Quality Dataset, Proceedings of the UniSZA Research Conference 2015 (URC ’15), Universiti Sultan Zainal Abidin, 14-16 April 2015;
7. Robert E Schapire. The strength of weak learnability. Machine learning, 5 (2):197-227, 1990;
8. Ljupco Todorovski and Saso Dzeroski. Combining classifiers with meta decision trees. Machine learning, 50(3):223-249, 2003;
9. David H Wolpert. Stacked generalization. Neural networks, 5(2):241-259, 1992.
ĐẶNG HỮU NGHỊ, BÙI THỊ VÂN ANH
Trường Đại học Mỏ - Địa chất