Ứng dụng các phương pháp học tập kết hợp trong dự báo nguy cơ cháy rừng tại Gia Lai

20/11/2023

TN&MTSo với cả vùng Tây Nguyên, Gia Lai chiếm 28% diện tích lâm nghiệp, 30% diện tích có rừng và 38% trữ lượng gỗ. Nằm trong vùng có điều kiện khí hậu, địa hình, đất đai nhiều thuận lợi, nên thảm thực vật ở đây phát triển rất đa dạng và phong phú, bao gồm nhiều loại khác nhau. Rừng tự nhiên ở Gia Lai chiếm khoảng 78,3% diện tích đất lâm nghiệp, có nhiều loại cây quý hiếm, gỗ tốt. Cháy rừng là mối đe dọa lớn, ảnh hưởng xấu đến môi trường và vùng sinh thái. Do đó, theo dõi hiện trạng và dự báo cháy rừng là rất cần thiết nhằm góp phần bảo vệ tài nguyên rừng. Tổng quan các công trình nghiên cứu cho thấy hiện nay trên thế giới vẫn chưa có phương pháp chung cho bài toán dự báo nguy cơ cháy rừng. Trong bài báo này, chúng tôi thử nghiệm áp dụng và so sánh các phương pháp học tập thể (Ensemble Learning) cho bài toán dự báo nguy cơ cháy rừng tại Gia Lai.

Abstract: Compared with the whole Central Highlands, Gia Lai accounts for 28% of the forestry area, 30% of the forested area and 38% of the timber reserves. Located in an area with favorable climate, terrain and soil conditions, the vegetation here is very diverse and rich, including many different types. Natural forests in Gia Lai account for about 78.3% of the forestry land area, with many rare trees and good timbers. Forest fires are a great threat, adversely affecting the environment and ecological regions. Therefore, monitoring the current status and forecasting of forest fires is very necessary to contribute to the protection of forest resources. An overview of research studies shows that currently in the world there is still no general method for the problem of predicting the risk of forest fires. In this paper, we try to apply and compare Ensemble Learning methods to the problem of forest fire risk prediction in Gia Lai.

Giới thiệu

Các phương pháp thống kê cũng được sử dụng để mô hình hóa cháy rừng do tính chất ngẫu nhiên cố hữu của hiện tượng cháy rừng ở tất cả các quy mô. Do cháy rừng một quá trình phức tạp, nên trong các bài toán mô hình hóa cháy rừng với nhiều yếu tố ảnh hưởng và khối lượng dữ liệu lớn (cho vùng nghiên cứu rộng), độ chính xác dự báo của các mô hình thống kê vẫn còn hạn chế.

Để nâng cao độ chính xác dự báo của các mô hình cháy rừng, các kỹ thuật học máy đã được đề xuất do chúng làm việc tốt với dữ liệu lớn, có nhiều đầu vào. Trong thống kê và học máy, các phương pháp học tập kết hợp sử dụng nhiều thuật toán học tập để có được hiệu suất dự đoán tốt hơn những gì có thể thu được từ bất kỳ thuật toán học tập cấu thành nào. Nhiều nghiên cứu thực nghiệm và lý thuyết đã chứng minh rằng các mô hình kết hợp thường đạt độ chính xác cao hơn các mô hình đơn lẻ.

Phương pháp học tập kết hợp

Phương pháp học tập kết hợp là kỹ thuật tạo ra nhiều mô hình và sau đó kết hợp chúng lại để tạo ra kết quả được cải thiện hơn. Các phương pháp Ensemble Learning được chia thành 3 loại: Bagging (đóng bao), Boosting (tăng cường) và Stacking (Xếp chồng).

Bagging: Thuật toán Bagging được đề xuất bởi Breiman [4] và mục đích của nó là để cải thiện hiệu quả dự đoán đối với vấn đề mất cân bằng dữ liệu khi chỉ áp dụng một thuật toán đơn như Decision tree hoặc Neural Network.

Boosting: Boosting được giới thiệu bởi [9] sử dụng thuật toán cây quyết định để tạo các mô hình mới. Boosting gán trọng số cho các mô hình dựa trên hiệu suất của chúng. Có nhiều biến thể của thuật toán Boosting như LogitBoost (LB) và AdaBoost (AB).

Stacking: Stacking là một biến thể của mô hình máy học kết hợp - ensemble learning còn được gọi là phương pháp meta-learning, bao gồm một hệ thống phân cấp các bộ phân loại khác nhau. Mục tiêu của stacking là để xây dựng một bộ phân loại cấp độ meta có thể dự đoán nhãn đích của tập dữ liệu bằng cách kết hợp kết quả các dự đoán từ các bộ phân loại riêng biệt.

Thực nghiệm

Tập dữ liệu

Cơ sở dữ liệu GIS của bài toán dự báo nguy cơ cháy rừng cho tỉnh Gia Lai bao gồm dữ liệu của 12 yếu tố ảnh hưởng và 2530 vị trí cháy rừng trong giai đoạn năm 2007-2016. Các yếu tố này bao gồm: Độ dốc địa hình, hướng phơi sườn, độ cao, độ cong địa hình, hiện trạng sử dụng đất, chỉ số NDVI, chỉ số NDWI, chỉ số NDMI, nhiệt độ, tốc độ gió, độ ẩm tương đối và lượng mưa. 

Dữ liệu của 2530 vị trí cháy rừng (gọi là ví dụ mẫu) được trích xuất từ cơ sở dữ liệu GIS để đưa vào bộ dữ liệu xây dựng mô hình. Hơn nữa, để có một bộ dữ liệu với số ví dụ mẫu thuộc các lớp “cháy rừng” và “không cháy” là cân bằng, một số lượng tương đương các vị trí “không cháy” được lấy mẫu ngẫu nhiên từ khu vực nghiên cứu để thêm vào bộ dữ liệu. Như vậy, tổng số mẫu trong bộ dữ liệu là 5060. Dữ liệu của các yếu tố ảnh hưởng (đầu vào của mô hình) được chuyển đổi và chuẩn hóa thành các giá trị thực trong phạm vi từ 0,01 đến 0,99. Đầu ra của các ví dụ mẫu được mã hóa bằng 1 cho các mẫu cháy rừng và bằng 0 cho các mẫu không cháy. Sau đó, bộ dữ liệu 5060 mẫu được chia ngẫu nhiên thành hai tập không giao nhau: Tập huấn luyện chiếm 80% số mẫu và tập kiểm tra chiếm 20% còn lại [1][2].

Kết quả thực nghiệm
Phương pháp Bagging

Ở đây chúng tôi áp dụng các giải thuật Bagged Decision Trees, Random Forest, Extra Trees trong phương pháp đóng bao. Để so sánh hiệu quả của các giải thuật trong mô hình học tập thể chúng tôi sử dụng phương pháp 10-Fold Cross-Validation với các tập dữ liệu bạn đầu được chia ngẫu nhiên thành 10 tập con, trong đó 9 tập sẽ được sử dụng như tập huấn luyện và 1 tập còn lại là tập kiểm tra. Kết quả cuối cùng là trung bình giá trị sau các lần lặp.

Bảng 1. Kết quả độ chính xác của các phương pháp học tập theo nhóm đóng bao

Ứng dụng các phương pháp học tập kết hợp trong dự báo nguy cơ cháy rừng tại Gia Lai

Phương pháp Stacking

Trong nghiên cứu này, chúng tôi sử dụng các thuật toán Hồi quy tuyến tính (Logistic Regression), K láng giềng gần nhất (k-Nearest Neighbors - KNN), Cây quyết định (Decision Tree), Máy hỗ trợ Vector (Support Vector Machine - SVM) và Naive Bayes làm mô hình cơ sở.

Bảng 2. Kết quả độ chính xác của các phương pháp học tập kết hợp xếp chồng

Ứng dụng các phương pháp học tập kết hợp trong dự báo nguy cơ cháy rừng tại Gia Lai

Phương pháp Stacking Boosting

Tăng cường là một kỹ thuật tổng hợp cố gắng tạo ra một bộ phân loại mạnh từ một số bộ phân loại yếu. Chúng tôi sử dụng giải thuật AdaBoost, Gradient Boosting và Extreme Gradient Boosting cho bài toán phân loại.

Kết luận

Bảng 3. Kết quả độ chính xác của các phương pháp học tập tập thể tăng cường

Ứng dụng các phương pháp học tập kết hợp trong dự báo nguy cơ cháy rừng tại Gia Lai

Trong bài viết này, chúng tôi tìm hiểu ba phương pháp học tập thể tiêu chuẩn cho máy học và áp dụng chúng vào bài toán dự đoán nguy cơ cháy rừng. Kết quả thực nghiệm cho thấy phương pháp Extreme Gradient Boosting cho kết quả tốt nhất,… Trong tương lai, chúng tôi sẽ áp dụng phương pháp tối ưu hóa bầy đàn trong việc lựa chọn các tham số cho các giải thuật ở mô hình cơ sở nhằm nâng cao độ chính xác của mô hình.

Tài liệu tham khảo

1. Bui, D. T. et al., 2017. A Hybrid Artificial Intelligence Approach Using GIS-Based Neural-Fuzzy Inference System and Particle Swarm Optimization for Forest Fire Susceptibility Modeling at A Tropical Area. Agricultural and Forest Meteorology, Volume 233, p. 32–44;

2. Bui, D. T. et al., 2016. Tropical forest fire susceptibility mapping at the Cat Ba national park area, Hai Phong city, Vietnam, using GIS-based kernel logistic regression. Remote Sens., 8(4), p. 347;

3. Cha Zhang ,Yunqian Ma, Ensemble Machine Learning Methods and Applications, Springer Science+Business Media, LLC 2012;

4. Jian Zhou, Yuanyuan Wang, Fu Xiao, Yunyun Wang. Lijuan Sun, Water Quality Prediction Method Based on IGRA and LSTM, MDPI, 2018;

5. Panagiotis Pintelas, Ioannis E. Livieris, Ensemble Algorithms and Their Applications, ISBN 978-3-03936-959-1;

6. Theyazn H. H Aldhyani, etc, Water Quality Prediction Using Artificial Intelligence Algorithms, Applied Bionics and Biomechanics, Volume 2020;

7. Theyazn H. H Aldhyani, Mohammed Al-Yaari, Hasan Alkahtani, and Mashael Maashi, Water Quality Prediction Using Artificial Intelligence Algorithms, Applied Bionics and Biomechanics Journal, 2020 Stacking;

8. Rosaida Rosly1, Mokhairi Makhtar2, Mohd Khalid Awang3, Nordin Abdul Rahman4 and Mustafa Mat Deris5, Comparison of Ensemble Classifiersfor Water Quality Dataset, Proceedings of the UniSZA Research Conference 2015 (URC ’15) , Universiti Sultan Zainal Abidin, 14-16 April 2015;

9. Robert E Schapire. The strength of weak learnability. Machine learning, 5 (2):197-227, 1990;

10. Ljupco Todorovski and Saso Dzeroski. Combining classifiers with meta decision trees. Machine learning, 50(3):223-249, 2003;

11. David H Wolpert. Stacked generalization. Neural networks, 5(2):241–259, 1992.

ĐẶNG HỮU NGHỊ; BÙI THỊ VÂN ANH

   Trường Đại học Mỏ - Địa chất Hà Nội

Nguồn: Tạp chí Tài nguyên và Môi trường số 4 (Kỳ 2 tháng 2) năm 2023

Gửi Bình Luận

code

Tin liên quan

Tin tức

Thủ tướng: Chống chạy chọt, lợi ích cá nhân trong tinh gọn bộ máy

Bộ trưởng Đỗ Đức Duy gửi thư chúc mừng ngày truyền thống Ngành Đo đạc và Bản đồ Việt Nam

Bộ Tài nguyên và Môi trường tổ chức Hội nghị triển khai ‘Kế hoạch định hướng sắp xếp, tinh gọn tổ chức bộ máy của Chính phủ’ 

Thông cáo báo chí Chương trình phiên họp thứ 40 của Ủy ban Thường vụ Quốc hội

Tài nguyên

Tỉnh Bình Phước nỗ lực cải thiện công tác cấp Giấy chứng nhận quyền sử dụng đất

Tách nguồn thải, bổ cập nước để làm sạch các dòng sông tại Hà Nội

Việt Nam - Phần Lan chia sẻ kinh nghiệm về quản lý bổ cập nước dưới đất

Bộ TN&MT phổ biến Luật Đất đai 2024 cho toàn ngành Tòa án Nhân dân

Môi trường

Tăng cường công tác quản lý nhà nước về biến đổi khí hậu, giảm phát thải khí nhà kính

Thực hiện các hiệp định và thoả thuận quốc tế về biến đổi khí hậu

Ngăn chặn sản xuất không bảo đảm điều kiện môi trường

Diễn đàn “Công nhân lao động vì môi trường 2024”: Lan tỏa sáng kiến xanh, bảo vệ môi trường

Video

Nâng cao công tác quản lý nhà nước về môi trường và hỗ trợ các doanh nghiệp

Phụ nữ tiên phong trong phát triển kinh tế tuần hoàn

Chuyển đổi năng lượng xanh, hướng tới mục tiêu Net Zero

Dương Kinh (Hải Phòng): Đi tìm lời giải trong việc thu hồi đất tại phường Hòa Nghĩa

Khoa học

Tổng quan về công nghệ tích hợp định vị vệ tinh và đo sâu hồi âm trong đo sâu địa hình đáy biển

Giải pháp thúc đẩy phân loại chất thải rắn sinh hoạt theo luật Bảo vệ môi trường năm 2020

Ứng dụng công nghệ khoáng, vi sinh và nước xử lý ô nhiễm môi trường chăn nuôi

Đánh giá ảnh hưởng môi trường của một số ao nuôi tôm khu vực phía Nam huyện Nhà Bè

Chính sách

Từ 1/1/2025, xe ô tô kinh doanh chở trẻ em mầm non, học sinh phải sơn màu vàng đậm

Vi phạm hành chính lĩnh vực khí tượng thủy văn bị phạt tới 100 triệu đồng

Phấn đấu đến 2030, mở rộng diện tích, thành lập mới, quản lý hiệu quả 27 khu bảo tồn biển

Giải pháp trọng tâm đẩy mạnh tăng trưởng xanh giai đoạn 2021 - 2030, tầm nhìn 2050

Phát triển

“Nhà của ông già Noel” bất ngờ xuất hiện tại khu đô thị của nhà sáng lập Ecopark

Supe Lâm Thao tổ chức Chương trình trồng hoa mừng xuân Ất Tỵ tại Khu Di tích lịch sử Đền Hùng

Công ty CP Than Hà Tu: Đẩy mạnh hoàn thành các chỉ tiêu kế hoạch năm 2024

Tổng công ty Công nghiệp mỏ Việt Bắc TKV: Sơ kết công tác sản xuất kinh doanh 9 tháng đầu năm

Diễn đàn

Tin Gió mùa Đông Bắc tăng cường ngày 13/12: Bắc Bộ và Bắc Trung Bộ trời rét đậm, có nơi rét hại

Thời tiết ngày 12/12: Bắc Bộ trời rét, vùng núi rét đậm

Tin mới nhất về Gió mùa Đông Bắc ngày 12/12

Thời tiết ngày 11/12: Miền Bắc chiều tối rét đậm kèm mưa

Kinh tế xanh

Cam 3T Farm Cao Phong: Mô hình tiêu biểu trong xây dựng thương hiệu nông sản và chuyển đổi số

Diễn đàn Kinh tế tuần hoàn Việt Nam 2024 “Cần ưu tiên 4 con đường chính"

Organic Green Nut - Đậu phụ Quê Mình: Đem nông sản Việt chất lượng cho người Việt

Miến Dong sạch Trung Kiên: Sản phẩm sạch, an toàn cho sức khỏe và môi trường