Ứng dụng các phương pháp học tập kết hợp trong dự báo nguy cơ cháy rừng tại Gia Lai
20/11/2023TN&MTSo với cả vùng Tây Nguyên, Gia Lai chiếm 28% diện tích lâm nghiệp, 30% diện tích có rừng và 38% trữ lượng gỗ. Nằm trong vùng có điều kiện khí hậu, địa hình, đất đai nhiều thuận lợi, nên thảm thực vật ở đây phát triển rất đa dạng và phong phú, bao gồm nhiều loại khác nhau. Rừng tự nhiên ở Gia Lai chiếm khoảng 78,3% diện tích đất lâm nghiệp, có nhiều loại cây quý hiếm, gỗ tốt. Cháy rừng là mối đe dọa lớn, ảnh hưởng xấu đến môi trường và vùng sinh thái. Do đó, theo dõi hiện trạng và dự báo cháy rừng là rất cần thiết nhằm góp phần bảo vệ tài nguyên rừng. Tổng quan các công trình nghiên cứu cho thấy hiện nay trên thế giới vẫn chưa có phương pháp chung cho bài toán dự báo nguy cơ cháy rừng. Trong bài báo này, chúng tôi thử nghiệm áp dụng và so sánh các phương pháp học tập thể (Ensemble Learning) cho bài toán dự báo nguy cơ cháy rừng tại Gia Lai.
Abstract: Compared with the whole Central Highlands, Gia Lai accounts for 28% of the forestry area, 30% of the forested area and 38% of the timber reserves. Located in an area with favorable climate, terrain and soil conditions, the vegetation here is very diverse and rich, including many different types. Natural forests in Gia Lai account for about 78.3% of the forestry land area, with many rare trees and good timbers. Forest fires are a great threat, adversely affecting the environment and ecological regions. Therefore, monitoring the current status and forecasting of forest fires is very necessary to contribute to the protection of forest resources. An overview of research studies shows that currently in the world there is still no general method for the problem of predicting the risk of forest fires. In this paper, we try to apply and compare Ensemble Learning methods to the problem of forest fire risk prediction in Gia Lai.
Giới thiệu
Các phương pháp thống kê cũng được sử dụng để mô hình hóa cháy rừng do tính chất ngẫu nhiên cố hữu của hiện tượng cháy rừng ở tất cả các quy mô. Do cháy rừng một quá trình phức tạp, nên trong các bài toán mô hình hóa cháy rừng với nhiều yếu tố ảnh hưởng và khối lượng dữ liệu lớn (cho vùng nghiên cứu rộng), độ chính xác dự báo của các mô hình thống kê vẫn còn hạn chế.
Để nâng cao độ chính xác dự báo của các mô hình cháy rừng, các kỹ thuật học máy đã được đề xuất do chúng làm việc tốt với dữ liệu lớn, có nhiều đầu vào. Trong thống kê và học máy, các phương pháp học tập kết hợp sử dụng nhiều thuật toán học tập để có được hiệu suất dự đoán tốt hơn những gì có thể thu được từ bất kỳ thuật toán học tập cấu thành nào. Nhiều nghiên cứu thực nghiệm và lý thuyết đã chứng minh rằng các mô hình kết hợp thường đạt độ chính xác cao hơn các mô hình đơn lẻ.
Phương pháp học tập kết hợp
Phương pháp học tập kết hợp là kỹ thuật tạo ra nhiều mô hình và sau đó kết hợp chúng lại để tạo ra kết quả được cải thiện hơn. Các phương pháp Ensemble Learning được chia thành 3 loại: Bagging (đóng bao), Boosting (tăng cường) và Stacking (Xếp chồng).
Bagging: Thuật toán Bagging được đề xuất bởi Breiman [4] và mục đích của nó là để cải thiện hiệu quả dự đoán đối với vấn đề mất cân bằng dữ liệu khi chỉ áp dụng một thuật toán đơn như Decision tree hoặc Neural Network.
Boosting: Boosting được giới thiệu bởi [9] sử dụng thuật toán cây quyết định để tạo các mô hình mới. Boosting gán trọng số cho các mô hình dựa trên hiệu suất của chúng. Có nhiều biến thể của thuật toán Boosting như LogitBoost (LB) và AdaBoost (AB).
Stacking: Stacking là một biến thể của mô hình máy học kết hợp - ensemble learning còn được gọi là phương pháp meta-learning, bao gồm một hệ thống phân cấp các bộ phân loại khác nhau. Mục tiêu của stacking là để xây dựng một bộ phân loại cấp độ meta có thể dự đoán nhãn đích của tập dữ liệu bằng cách kết hợp kết quả các dự đoán từ các bộ phân loại riêng biệt.
Thực nghiệm
Tập dữ liệu
Cơ sở dữ liệu GIS của bài toán dự báo nguy cơ cháy rừng cho tỉnh Gia Lai bao gồm dữ liệu của 12 yếu tố ảnh hưởng và 2530 vị trí cháy rừng trong giai đoạn năm 2007-2016. Các yếu tố này bao gồm: Độ dốc địa hình, hướng phơi sườn, độ cao, độ cong địa hình, hiện trạng sử dụng đất, chỉ số NDVI, chỉ số NDWI, chỉ số NDMI, nhiệt độ, tốc độ gió, độ ẩm tương đối và lượng mưa.
Dữ liệu của 2530 vị trí cháy rừng (gọi là ví dụ mẫu) được trích xuất từ cơ sở dữ liệu GIS để đưa vào bộ dữ liệu xây dựng mô hình. Hơn nữa, để có một bộ dữ liệu với số ví dụ mẫu thuộc các lớp “cháy rừng” và “không cháy” là cân bằng, một số lượng tương đương các vị trí “không cháy” được lấy mẫu ngẫu nhiên từ khu vực nghiên cứu để thêm vào bộ dữ liệu. Như vậy, tổng số mẫu trong bộ dữ liệu là 5060. Dữ liệu của các yếu tố ảnh hưởng (đầu vào của mô hình) được chuyển đổi và chuẩn hóa thành các giá trị thực trong phạm vi từ 0,01 đến 0,99. Đầu ra của các ví dụ mẫu được mã hóa bằng 1 cho các mẫu cháy rừng và bằng 0 cho các mẫu không cháy. Sau đó, bộ dữ liệu 5060 mẫu được chia ngẫu nhiên thành hai tập không giao nhau: Tập huấn luyện chiếm 80% số mẫu và tập kiểm tra chiếm 20% còn lại [1][2].
Kết quả thực nghiệm
Phương pháp Bagging
Ở đây chúng tôi áp dụng các giải thuật Bagged Decision Trees, Random Forest, Extra Trees trong phương pháp đóng bao. Để so sánh hiệu quả của các giải thuật trong mô hình học tập thể chúng tôi sử dụng phương pháp 10-Fold Cross-Validation với các tập dữ liệu bạn đầu được chia ngẫu nhiên thành 10 tập con, trong đó 9 tập sẽ được sử dụng như tập huấn luyện và 1 tập còn lại là tập kiểm tra. Kết quả cuối cùng là trung bình giá trị sau các lần lặp.
Bảng 1. Kết quả độ chính xác của các phương pháp học tập theo nhóm đóng bao
Phương pháp Stacking
Trong nghiên cứu này, chúng tôi sử dụng các thuật toán Hồi quy tuyến tính (Logistic Regression), K láng giềng gần nhất (k-Nearest Neighbors - KNN), Cây quyết định (Decision Tree), Máy hỗ trợ Vector (Support Vector Machine - SVM) và Naive Bayes làm mô hình cơ sở.
Bảng 2. Kết quả độ chính xác của các phương pháp học tập kết hợp xếp chồng
Phương pháp Stacking Boosting
Tăng cường là một kỹ thuật tổng hợp cố gắng tạo ra một bộ phân loại mạnh từ một số bộ phân loại yếu. Chúng tôi sử dụng giải thuật AdaBoost, Gradient Boosting và Extreme Gradient Boosting cho bài toán phân loại.
Kết luận
Bảng 3. Kết quả độ chính xác của các phương pháp học tập tập thể tăng cường
Trong bài viết này, chúng tôi tìm hiểu ba phương pháp học tập thể tiêu chuẩn cho máy học và áp dụng chúng vào bài toán dự đoán nguy cơ cháy rừng. Kết quả thực nghiệm cho thấy phương pháp Extreme Gradient Boosting cho kết quả tốt nhất,… Trong tương lai, chúng tôi sẽ áp dụng phương pháp tối ưu hóa bầy đàn trong việc lựa chọn các tham số cho các giải thuật ở mô hình cơ sở nhằm nâng cao độ chính xác của mô hình.
Tài liệu tham khảo
1. Bui, D. T. et al., 2017. A Hybrid Artificial Intelligence Approach Using GIS-Based Neural-Fuzzy Inference System and Particle Swarm Optimization for Forest Fire Susceptibility Modeling at A Tropical Area. Agricultural and Forest Meteorology, Volume 233, p. 32–44;
2. Bui, D. T. et al., 2016. Tropical forest fire susceptibility mapping at the Cat Ba national park area, Hai Phong city, Vietnam, using GIS-based kernel logistic regression. Remote Sens., 8(4), p. 347;
3. Cha Zhang ,Yunqian Ma, Ensemble Machine Learning Methods and Applications, Springer Science+Business Media, LLC 2012;
4. Jian Zhou, Yuanyuan Wang, Fu Xiao, Yunyun Wang. Lijuan Sun, Water Quality Prediction Method Based on IGRA and LSTM, MDPI, 2018;
5. Panagiotis Pintelas, Ioannis E. Livieris, Ensemble Algorithms and Their Applications, ISBN 978-3-03936-959-1;
6. Theyazn H. H Aldhyani, etc, Water Quality Prediction Using Artificial Intelligence Algorithms, Applied Bionics and Biomechanics, Volume 2020;
7. Theyazn H. H Aldhyani, Mohammed Al-Yaari, Hasan Alkahtani, and Mashael Maashi, Water Quality Prediction Using Artificial Intelligence Algorithms, Applied Bionics and Biomechanics Journal, 2020 Stacking;
8. Rosaida Rosly1, Mokhairi Makhtar2, Mohd Khalid Awang3, Nordin Abdul Rahman4 and Mustafa Mat Deris5, Comparison of Ensemble Classifiersfor Water Quality Dataset, Proceedings of the UniSZA Research Conference 2015 (URC ’15) , Universiti Sultan Zainal Abidin, 14-16 April 2015;
9. Robert E Schapire. The strength of weak learnability. Machine learning, 5 (2):197-227, 1990;
10. Ljupco Todorovski and Saso Dzeroski. Combining classifiers with meta decision trees. Machine learning, 50(3):223-249, 2003;
11. David H Wolpert. Stacked generalization. Neural networks, 5(2):241–259, 1992.
ĐẶNG HỮU NGHỊ; BÙI THỊ VÂN ANH
Trường Đại học Mỏ - Địa chất Hà Nội
Nguồn: Tạp chí Tài nguyên và Môi trường số 4 (Kỳ 2 tháng 2) năm 2023