Xây dựng kiến trúc dữ liệu lớn cho chuyển đổi số ngành Tài nguyên và Môi trường
02/01/2024TN&MTChương trình chuyển đổi số TN&MT đến năm 2025, định hướng đến năm 2030 đã xác định: Ngành TN&MT quản lý, điều hành cơ bản trên phương thức, quy trình, mô hình của công nghệ số và kết quả phân tích, xử lý dữ liệu số; áp dụng khoa học công nghệ, đổi mới sáng tạo và nhân lực chất lượng cao.
Vai trò nền tảng dữ liệu lớn (Big data) trong chuyển đổi số ngành Tài nguyên và Môi trường
Chương trình chuyển đổi số TN&MT đến năm 2025, định hướng đến năm 2030 đã xác định: Ngành TN&MT quản lý, điều hành cơ bản trên phương thức, quy trình, mô hình của công nghệ số và kết quả phân tích, xử lý dữ liệu số; áp dụng khoa học công nghệ, đổi mới sáng tạo và nhân lực chất lượng cao. Tạo thế chủ động, hiệu lực, hiệu quả trong quản lý, khai thác, sử dụng hiệu quả, bền vững tài nguyên thiên nhiên; bảo vệ môi trường; bảo tồn, phát triển đa dạng sinh học; chủ động ứng phó với biến đổi khí hậu, nước biển dâng; phòng chống và giảm nhẹ thiên tai; xây dựng nền kinh tế xanh, kinh tế tuần hoàn, thân thiện với môi trường.
Trong đó, nền tảng dữ liệu lớn có vai trò quan trọng, được thể hiện cụ thể tại mục tiêu đến năm 2025: 80% cơ sở dữ liệu về TN&MT được xây dựng, cập nhật trên nền tảng dữ liệu lớn có sự đóng góp của tổ chức, cá nhân, cộng đồng; 80% công tác giám sát, dự báo, cảnh báo về TN&MT dựa trên phân tích, xử lý dữ liệu lớn theo thời gian thực, hỗ trợ ra quyết định chính xác, kịp thời, đúng quy định và mục tiêu đến năm 2030: Cơ bản công tác quản lý, chỉ đạo, điều hành, chuyên môn nghiệp vụ, giám sát, dự báo, cảnh báo về TN&MT hoàn toàn trên cơ sở phân tích, xử lý dữ liệu lớn bằng công nghệ trí tuệ nhân tạo, theo thời gian thực, hỗ trợ ra quyết định chính xác, kịp thời.
Để đạt được các mục tiêu trên, nền tảng dữ liệu lớn được đề cập trong các nhiệm vụ trọng tâm thuộc Chương trình như sau:
Đối với phát triển hạ tầng số: Hoàn thiện hạ tầng số, Trung tâm dữ liệu phục vụ chuyển đổi số,… cung cấp khả năng quản lý, lưu trữ trên nền tảng dữ liệu lớn; cung cấp năng lực phân tích, xử lý, tính toán bằng công nghệ AI; bảo đảm cung cấp và chia sẻ dữ liệu, thông tin về TN&MT theo thời gian thực.
Đối với Phát triển hạ tầng dữ liệu: Xây dựng kho dữ liệu TN&MT dùng chung, sử dụng giải pháp công nghệ quản lý dữ liệu lớn (big data, data lake) nhằm quản lý toàn diện tài nguyên số về TN&MT.
Đối với xây dựng nền tảng số: Phát triển các nền tảng trí tuệ nhân tạo, khai phá, xử lý dữ liệu lớn, các nền tảng thông minh cho công tác dự báo, cảnh báo, phân tích, tổng hợp, thống kê nhằm cung cấp, chia sẻ dữ liệu, thông tin về TN&MT theo thời gian thực phục vụ quản lý nhà nước và phát triển KT-XH.
Đặc biệt, đối với nhiệm vụ ưu tiên trong chuyển đổi số TN&MT xác định: Xây dựng các hệ thống thông tin, cơ sở dữ liệu lớn lĩnh vực TN&MT nhằm quản lý toàn diện, hiệu quả, gồm: Cơ sở dữ liệu về nền địa lý quốc gia, quan trắc TN&MT, đa dạng sinh học, nguồn thải, tài nguyên nước, viễn thám, biển và hải đảo, biến đổi khí hậu; khí tượng - thủy văn; địa chất - khoáng sản.
Tham khảo tài liệu chuẩn hoá về Kiến trúc dữ liệu lớn
Trong những năm gần đây, các tổ chức tiêu chuẩn quốc tế cũng như nhiều quốc gia, khu vực đang nỗ lực xúc tiến nghiên cứu và thực hiện tiêu chuẩn hoá về các nội dung liên quan đến dữ liệu lớn, trong đó có tiêu chuẩn về kiến trúc tham chiếu dữ liệu lớn.
Bộ tiêu chuẩn ISO/IEC 20547 bổ sung cho tiêu chuẩn nền tảng về thuật ngữ dữ liệu lớn (ISO/IEC 20546) và cung cấp một kiến trúc tham chiếu dữ liệu lớn toàn diện. Khung kiến trúc tham chiếu dữ liệu lớn giải quyết các yêu cầu, kiến trúc, bảo mật và quyền riêng tư, các trường hợp sử dụng.
Liên minh viễn thông quốc tế, với bộ phận chuẩn hóa viễn thông (ITU-T) là tổ chức chuyên môn của Liên hợp quốc thành lập nhằm thúc đẩy các hoạt động chuẩn hóa trong lĩnh vực viễn thông. Trong bối cảnh phát triển của dữ liệu lớn trong những năm gần đây, ITU-T cũng đã xúc tiến hoạt động nghiên cứu, xây dựng các khuyến nghị trong lĩnh vực này.
Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST) đã thành lập nhóm công tác dữ liệu lớn với mục tiêu phát triển sự đồng thuận về các khái niệm cơ bản quan trọng liên quan đến dữ liệu lớn, đưa ra một khung mẫu (framework) không phụ thuộc vào nhà cung cấp, công nghệ và cơ sở hạ tầng.
Tại Việt Nam, một số tài liệu về Kiến trúc tham chiếu dữ liệu lớn cũng đã được ban hành, tiêu biểu là một số bộ tiêu chuẩn Việt Nam
TCVN 13238:2020 (ISO/IEC 20546:2019): Tiêu chuẩn Công nghệ thông tin - Dữ liệu lớn tổng quan và từ vựng. Tiêu chuẩn này đưa ra tổng quan khái niệm về lĩnh vực dữ liệu lớn, mối quan hệ với các lĩnh vực kỹ thuật khác.
TCVN 13239-2:2020 (ISO/IEC TR 20547-2:2018): Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 2: Các trường hợp sử dụng và yêu cầu dẫn xuất. Tiêu chuẩn này đưa ra các ví dụ về các trường hợp sử dụng dữ liệu lớn với các lĩnh vực ứng dụng.
TCVN ISO/IEC 20547-3:2022: Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 3: Kiến trúc tham chiếu nêu rõ kiến trúc tham chiếu dữ liệu lớn. Kiến trúc tham chiếu bao gồm các khái niệm và các góc nhìn kiến trúc.
TCVN 13239-5:2020 (ISO/IEC TR 20547-5:2018): Tiêu chuẩn Công nghệ thông tin - Kiến trúc tham chiếu dữ liệu lớn - Phần 5: Lộ trình tiêu chuẩn. Tiêu chuẩn này mô tả các tiêu chuẩn liên quan đến dữ liệu lớn.
Đề xuất kiến trúc nền tảng dữ liệu lớn cho chuyển đổi số ngành Tài nguyên và Môi trường
Hình 1. Kiến trúc tổng thể Nền tảng dữ liệu lớn ngành TN&MT
Mô hình kiến trúc tổng thể
Các tầng trong kiến trúc tổng thể Nền tảng dữ liệu lớn bao gồm:
Tầng người dùng: Thể hiện tất cả người dùng có thể sử dụng các dịch vụ mà nền tảng dữ liệu lớn cung cấp. Tuỳ thuộc vào vai trò của người dùng, họ có thể tiếp cận và sử dụng các dịch vụ với nhiều mức độ khác nhau.
Tầng giao tiếp: Thể hiện các hình thức, phương tiện mà qua đó người sử dụng tiếp cận và sử dụng được chức năng mà nền tảng cung cấp.
Tầng ứng dụng: Thể hiện tất cả các ứng dụng, chức năng cốt lõi, quan trọng mà Nền tảng dữ liệu lớn cần cung cấp cho người sử dụng. Các chức năng này được tổ chức thành các thành phần công nghệ bao gồm thành phần: Thu thập và tổng hợp dữ liệu; lưu trữ và xử lý dữ liệu; khai thác/chia sẻ dữ liệu; an toàn bảo mật thông tin,…
Tầng dữ liệu: Thể hiện các loại dữ liệu và cách thức tổ chức dữ liệu bên trong nền tảng dữ liệu lớn, trong đó, dữ liệu được chia thành 3 nhóm chính: Nhóm Dữ liệu gốc, nhóm dữ liệu dùng chung, nhóm Dữ liệu vận hành.
Tầng hạ tầng: Thể hiện hạ tầng công nghệ thông tin cần thiết để triển khai các dịch vụ, ứng dụng và cơ sở dữ liệu (CSDL) trong nền tảng dữ liệu lớn, bao gồm năng lực tính toán, lưu trữ, kết nối,… và các thiết bị đảm bảo an toàn, an ninh thông tin.
Mô hình tổ chức dữ liệu
Hình 2. Mô hình tổ chức dữ liệu nền tảng dữ liệu lớn ngành TN&MT
Tầng dữ liệu thể hiện các loại dữ liệu và cách thức tổ chức dữ liệu bên trong nền tảng dữ liệu lớn, trong đó, dữ liệu được chia thành 3 nhóm chính:
Nhóm Dữ liệu gốc: Tập hợp dữ liệu được thu thập, xử lý, chuẩn hóa, lưu trữ phục vụ khai thác, phân tích. Nhóm dữ liệu này chỉ có thể được truy cập bởi các thành phần nội bộ của nền tảng dữ liệu lớn.
Nhóm dữ liệu dùng chung: Tập hợp các kho dữ liệu của ngành TN&MT, phục vụ mục đích sử dụng chung. Nhóm dữ liệu này có thể được truy cập bởi các thành phần bên ngoài nền tảng dữ liệu lớn thông qua thành phần chia sẻ dữ liệu.
Nhóm Dữ liệu vận hành: Nhóm các dữ liệu phục vụ hoạt động của các hệ thống công nghệ trong Nền tảng dữ liệu lớn.
Mô hình ứng dụng
Các thành phần trong mô hình ứng dụng:
Hình 3. Mô hình ứng dụng của nền tảng dữ liệu lớn ngành TN&MT
Thành phần thu thập và tổng hợp dữ liệu: Các công nghệ đảm nhiệm chức năng thu thập dữ liệu từ các CSDL, HTTT đầu vào và tích hợp vào thành phần lưu trữ.
Thành phần lưu trữ và xử lý dữ liệu: Các công nghệ đảm nhiệm chức năng lưu trữ và xử lý dữ liệu. Thông thường, các công nghệ xử lý dữ liệu cơ bản sẽ được tích hợp cùng các công nghệ lưu trữ dữ liệu.
Thành phần khai thác dữ liệu: Các công nghệ cho phép phân tích dữ liệu, xây dựng các mô hình học máy, trí tuệ nhân tạo chuyên sâu nhằm tạo ra giá trị từ các dữ liệu đang có và các công nghệ cho phép sử dụng dữ liệu để xây dựng báo cáo, trực quan hóa dữ liệu.
Thành phần chia sẻ dữ liệu: Các công nghệ đảm nhiệm chức năng quản lý chia sẻ dữ liệu giữa Nền tảng dữ liệu lớn với các hệ thống bên ngoài. Thành phần này kết nối trực tiếp với LGSP của Bộ TN&MT, tuân thủ Kiến trúc Chính phủ điện tử ngành TN&MT, phiên bản 2.0.
Thành phần hỗ trợ quản lý dữ liệu: Hỗ trợ các chức năng liên quan tới quản lý chất lượng dữ liệu và quản lý siêu dữ liệu.
Thành phần an toàn bảo mật thông tin: Cung các chức năng đảm bảo an toàn bảo mật cho dữ liệu và các thành phần trong nền tảng dữ liệu lớn.
Thành phần quản lý nền tảng: Các công nghệ cho phép quản trị, theo dõi hoạt động của các thành phần trong nền tảng dữ liệu lớn, hỗ trợ việc phát hiện, sửa lỗi, khắc phục sự cố.
Kết luận
Chuyển đổi số trong ngành TN&MT đang diễn ra mạnh mẽ, thay đổi cách làm việc từ truyền thống giấy tờ sang sử dụng công nghệ thông tin, công tác quản lý, điều hành, ra quyết định dựa trên dữ liệu số, công tác nghiệp vụ chuyên môn dựa trên thu thập, phân tích, báo cáo thông qua dữ liệu số, vì vậy, đề xuất kiến trúc dữ liệu lớn cho chuyển đổi số ngành TN&MT là điều cần thiết, qua đó, đưa ra kết quả có tính ứng dụng trong thực tiễn trong việc thu nhận, lưu trữ, quản trị, phân tích, xử lý, xây dựng, cập nhật, kết nối, chia sẻ, cung cấp dữ liệu về TN&MT góp phần hiện thực hóa mục tiêu chuyển đổi số ngành TN&MT đến năm 2025, định hướng đến năm 2030.
Tài liệu tham khảo
1. Quyết định số 417/QĐ-BTNMT ngày 10/3/2021 của Bộ trưởng Bộ TN&MT phê duyệt Chương trình chuyển đổi số TN&MT đến năm 2025, định hướng đến năm 2030;
2. Tài liệu của ISO/IEC: ISO/IEC TR 20547-1 về dữ liệu lớn;
3. Tài liệu của ITU-T: Y.3600,Y.3601, Y.3602, Y.3603, Y.3604,Y.3605 về dữ liệu lớn;
4. Tài liệu của NIST: NIST SP 1500-1, NIST SP 1500-2, NIST SP 1500-3, NIST SP 1500-4, NIST SP 1500-5, NIST SP 1500-6, NIST SP 1500-7.
KS. TRẦN TRUNG HÙNG và nhóm thực hiện đề tài
Cục Chuyển đổi số và Thông tin dữ liệu tài nguyên môi trường
Nguồn: Tạp chí Tài nguyên và Môi trường số 20 (Kỳ 2 tháng 10) năm 2023