Многопорядковая гидрологическая позиция для Европы — набор функций для машинного обучения и анализа в гидрологии

Блог

ДомДом / Блог / Многопорядковая гидрологическая позиция для Европы — набор функций для машинного обучения и анализа в гидрологии

Jun 22, 2024

Многопорядковая гидрологическая позиция для Европы — набор функций для машинного обучения и анализа в гидрологии

Том научных данных 9, номер статьи: 662 (2022 г.) Цитировать эту статью 1083 Доступ 5 Подробности об альтметрических метриках Представленный набор данных EU-MOHP v013.1.1 предоставляет многомасштабную информацию о

Научные данные, том 9, Номер статьи: 662 (2022) Цитировать эту статью

1083 доступа

5 Альтметрика

Подробности о метриках

Представленный набор данных EU-MOHP v013.1.1 предоставляет многомасштабную информацию о гидрологическом положении (MOHP) географической точки в пределах соответствующей речной сети и водосбора в виде карт с координатной сеткой. Точнее, он включает в себя три показателя: «расстояние от деления до ручья» (DSD) как сумма расстояний до ближайшего ручья и водораздела, «латеральное положение» (LP) как относительная мера положения между ближайшим ручьем и водоразделом. и «расстояние потока» (SD) как расстояние до ближайшего ручья. Эти три показателя рассчитаны для девяти гидрологических порядков и отражают различные пространственные масштабы: от локального до континентального. Его пространственная протяженность охватывает основные части Европейской экономической зоны (ЕЭЗ39), которая также во многом совпадает с физико-географической Европой. Хотя существует множество потенциальных вариантов использования, этот набор данных преимущественно служит ценным статическим дескриптором окружающей среды или предикторной переменной для гидрогеологического и гидрологического моделирования, такого как задачи картографирования или прогнозирования с использованием машинного обучения. Для создания этого набора данных используется только бесплатное программное обеспечение с открытым исходным кодом, поэтому его можно перенести в другие регионы или входные наборы данных.

Измерение(я)

разделить на расстояние потока • боковое положение • расстояние потока

Тип(ы) технологии

дистанционное зондирование

Пример характеристики — окружающая среда

водосборный бассейн • подземный водораздел • водосбор

Пример характеристики – Местоположение

Европа

В последние годы инструменты обработки данных, такие как машинное обучение, все чаще применяются и специально разрабатываются для решения гидро(ге)ологических задач и исследовательских вопросов1,2. В области гидрогеологии машинное обучение успешно используется для прогнозирования уровня грунтовых вод и решения различных картографических задач3,4,5,6,7,8,9,10,11,12,13. Поскольку модели машинного обучения — за исключением гибридных или физических моделей — основаны исключительно на данных без каких-либо знаний о физических процессах, важно предоставить значимые функции (также называемые предикторными или объясняющими переменными), которые влияют на целевую переменную, чтобы что алгоритм машинного обучения может моделировать функцию между входными и целевыми значениями. Для поверхностных и приповерхностных процессов этот критерий может быть более или менее выполнен при наличии данных дистанционного зондирования, тогда как для моделирования подземных процессов, например, в гидрогеологии, это представляет собой серьезную проблему.

Основная мотивация создания этого набора данных — частично закрыть этот пробел, предоставив набор функций, которые вводят гидрологический контекст в модели машинного обучения относительно горизонтального положения точки в пределах ее водосбора. Три меры, определяемые этим горизонтальным положением, рассчитываются для нескольких так называемых гидрологических порядков. Гидрологические порядки представляют собой различные пространственные масштабы: от локального до регионального и континентального. Таким образом, эти меры служат показателем геофизических характеристик гидрологических систем в различных масштабах и дополняют общедоступные и используемые характеристики, такие как карты землепользования и растительного покрова, геологические или почвенные карты. Этот набор данных во многом вдохновлен Белитцем и др.14 и адаптирует их идеи и методы к «Базе данных ЕС-Гидро-речной сети»15, но, напротив, использует бесплатное программное обеспечение с открытым исходным кодом и уделяет большое внимание воспроизводимости. Эта концепция может быть пространственно расширена путем применения представленных методов к наборам данных глобальной речной сети или гидрографов, таких как HYDRO1k16 или MERIT Hydro-Vector17. Более подробную информацию о концепции и методах можно найти у Belitz et al.14.

В своем исследовании Белитц и др.14 также представили результаты тематических исследований, чтобы доказать, что многопорядковое гидрологическое положение является ценной особенностью при картировании различных геофизических целевых переменных с использованием машинного обучения. Его польза для производительности моделей машинного обучения также была признана в ряде других исследований7,18,19.

 = i are used, whereas those with stream order _public_beta_v009.gpkg” and the second with “euhydro__v011.gpkg”. The coastline data is stored in a single Shapefile (.shp) file (see Fig. 4b). All files have a total size of approximately 14 GB when unzipped./p>___.tif”. The placeholders including “<” and “>” can be theoretically replaced by any combination of the values summarized in Table 2. But not all study area polygons have a river network for each hydrologic order. For example, the study area polygon for the island of Sardinia only has rivers up to a maximum streamorder of 6 and therefore only a maximum hydrologic order of 6. This means that there are no GeoTIFF files for Sardinia for hydrologic orders 7–9. Therefore, the total number of files is \({n}_{measures}\cdot {\sum }_{i=1}^{{n}_{hydrologicorders}}{n}_{studyareapolygons,i}=3\cdot {\sum }_{i=1}^{9}{n}_{studyareapolygons,i}=192\)./p> = dsd”). If required, a potential solution to this could be to fill these NA cells with values from the nearest non-NA grid cell as a simple approximation./p>, proxy = TRUE) before applying st_crop(). To simplify some of the previous steps, we developed the R package eumohpclipr (https://github.com/MxNl/eumohpclipr/)33. This package provides functionality to mosaic, crop or clip and plot the EU-MOHP dataset20. For a fast raster cell value extraction based on polygons, the R package exactextractr (https://github.com/isciences/exactextractr)34 is recommended./p> = lp”) must be divided by 100 to obtain percentages with two decimal digits or by 10,000 to obtain values in the range from 0 to 1. The cell values of all other files represent a distance in meters and can be used as is. All files are stored using the coordinate reference system (CRS) ETRS89-extended/LAEA Europe with the EPSG code 3035./p>