유럽의 다차원 수문학 위치 — 수문학의 기계 학습 및 분석을 위한 기능 세트

블로그

홈페이지홈페이지 / 블로그 / 유럽의 다차원 수문학 위치 — 수문학의 기계 학습 및 분석을 위한 기능 세트

Jun 22, 2024

유럽의 다차원 수문학 위치 — 수문학의 기계 학습 및 분석을 위한 기능 세트

Scientific Data 9권, 기사 번호: 662(2022) 이 기사 인용 1083 액세스 5 Altmetric Metrics 세부 정보 제시된 데이터 세트 EU-MOHP v013.1.1은 다음에 대한 다중 규모 정보를 제공합니다.

과학 데이터 9권, 기사 번호: 662(2022) 이 기사 인용

1083 액세스

5 알트메트릭

측정항목 세부정보

제시된 데이터 세트 EU-MOHP v013.1.1은 각 하천망 내 지리적 지점의 수문학적 위치(MOHP)와 격자 지도로 집수지에 대한 다중 규모 정보를 제공합니다. 보다 정확하게는 가장 가까운 하천과 유역 분할까지의 거리를 합한 "하천 거리 분할"(DSD), 가장 가까운 하천과 분할 사이의 위치에 대한 상대적 측정인 "측면 위치"(LP)의 세 가지 측정값으로 구성됩니다. 가장 가까운 하천까지의 거리인 "하천 거리"(SD). 이 세 가지 측정값은 지역에서 대륙까지 다양한 공간 규모를 반영하기 위해 9개의 수문학적 순서에 대해 계산됩니다. 그 공간적 범위는 유럽 경제 지역(EEA39)의 주요 부분을 포괄하며 이는 지리적으로 유럽과 대체로 일치합니다. 여러 잠재적인 사용 사례가 있지만 이 데이터세트는 주로 기계 학습을 사용한 매핑 또는 예측 작업과 같은 수문지질학적 및 수문학적 모델링을 위한 귀중한 정적 환경 설명자 또는 예측 변수로 사용됩니다. 이 데이터 세트의 생성은 무료 오픈 소스 소프트웨어만 사용하므로 다른 지역이나 입력 데이터 세트로 전송할 수 있습니다.

측정

하천 거리로 분할 • 측면 위치 • 하천 거리

기술 유형

원격 감지

샘플 특성 - 환경

배수 유역 • 지하수역 • 집수지

샘플 특성 - 위치

유럽

최근 몇 년 동안 기계 학습과 같은 데이터 과학 도구는 수문학적(지질)학적 과제 및 연구 질문에 점점 더 많이 적용되고 특별히 개발되었습니다1,2. 수리지질학 분야에서 기계 학습은 지하수 수위 예측 및 다양한 매핑 작업3,4,5,6,7,8,9,10,11,12,13에 성공적으로 사용되었습니다. 하이브리드 또는 물리학 기반 모델을 제외한 기계 학습 모델은 물리적 프로세스에 대한 지식 없이 순수하게 데이터를 기반으로 하기 때문에 대상 변수에 영향을 미치는 의미 있는 기능(예측 변수 또는 설명 변수라고도 함)을 제공하는 것이 중요합니다. 머신러닝 알고리즘이 입력과 목표 사이의 기능을 모델링할 수 있다는 것입니다. 표면 및 표면 근처 과정의 경우 이 기준은 원격 감지 데이터의 가용성으로 어느 정도 충족될 수 있는 반면, 수문지질학과 같은 지하 과정을 모델링하는 경우 이는 심각한 과제를 제기합니다.

이 데이터 세트의 주요 동기는 유역 내 지점의 수평 위치와 관련하여 기계 학습 모델에 수문학적 맥락을 도입하는 일련의 기능을 제공함으로써 이 격차를 부분적으로 줄이는 것입니다. 이 수평 위치에 의해 결정되는 세 가지 측정값은 소위 수문학적 순서라고 불리는 여러 가지에 대해 계산됩니다. 수문학적 순서는 지방에서 지역, 대륙까지 다양한 공간 규모를 나타냅니다. 따라서 측정값은 토지 이용 및 토지 피복, 지질 또는 토양 지도와 같이 일반적으로 이용 가능하고 사용되는 기능과 다양한 규모 및 보완물에서 수문학 시스템의 지구물리학적 특성에 대한 프록시 역할을 합니다. 이 데이터 세트는 Belitz et al.14로부터 큰 영감을 받았으며 그들의 아이디어와 방법을 "EU-Hydro - River Network Database"15에 적용하지만 이와는 대조적으로 무료 오픈 소스 소프트웨어를 사용하고 재현성에 중점을 둡니다. 이 개념은 제시된 방법을 HYDRO1k16 또는 MERIT Hydro-Vector17과 같은 글로벌 하천 네트워크 또는 수위도 데이터 세트에 적용함으로써 공간적으로 더욱 확장될 수 있습니다. 개념과 방법에 대한 자세한 배경 정보는 Belitz et al.14를 참조하십시오.

그들의 연구에서 Belitz et al.14은 또한 기계 학습을 사용하여 다양한 지구물리학적 목표 변수를 매핑할 때 다차원 수문학적 위치가 중요한 특징임을 입증하는 사례 연구 결과를 제공합니다. 기계 학습 모델의 성능에 대한 이점은 다른 여러 연구에서도 인정되었습니다7,18,19.

 = i are used, whereas those with stream order _public_beta_v009.gpkg” and the second with “euhydro__v011.gpkg”. The coastline data is stored in a single Shapefile (.shp) file (see Fig. 4b). All files have a total size of approximately 14 GB when unzipped./p>___.tif”. The placeholders including “<” and “>” can be theoretically replaced by any combination of the values summarized in Table 2. But not all study area polygons have a river network for each hydrologic order. For example, the study area polygon for the island of Sardinia only has rivers up to a maximum streamorder of 6 and therefore only a maximum hydrologic order of 6. This means that there are no GeoTIFF files for Sardinia for hydrologic orders 7–9. Therefore, the total number of files is \({n}_{measures}\cdot {\sum }_{i=1}^{{n}_{hydrologicorders}}{n}_{studyareapolygons,i}=3\cdot {\sum }_{i=1}^{9}{n}_{studyareapolygons,i}=192\)./p> = dsd”). If required, a potential solution to this could be to fill these NA cells with values from the nearest non-NA grid cell as a simple approximation./p>, proxy = TRUE) before applying st_crop(). To simplify some of the previous steps, we developed the R package eumohpclipr (https://github.com/MxNl/eumohpclipr/)33. This package provides functionality to mosaic, crop or clip and plot the EU-MOHP dataset20. For a fast raster cell value extraction based on polygons, the R package exactextractr (https://github.com/isciences/exactextractr)34 is recommended./p> = lp”) must be divided by 100 to obtain percentages with two decimal digits or by 10,000 to obtain values in the range from 0 to 1. The cell values of all other files represent a distance in meters and can be used as is. All files are stored using the coordinate reference system (CRS) ETRS89-extended/LAEA Europe with the EPSG code 3035./p>