НАУЧНЫЙ ПОРТАЛ GEOLOGYSCIENCE.RU: ТЕКУЩЕЕ СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ
Начиная с 2017 года в Государственном геологическом музее РАН (ГГМ РАН) проводятся работы по разработке и созданию Научного портала «Информационно-аналитическая среда для поддержки научных исследований в геологии» (https://geologyscience.ru/).
Основная цель данного Проекта заключается в организации единой очки доступа к геологическим данным на территорию России и системам их обработки с использованием возможностей поиска данных в территориально распределенных разнородных источниках, а также с использованием территориально-распределенных вычислительно-аналитических узлов для обработки данных, взаимодействие с которыми осуществляется с использованием технологии web-сервисов.
Информационный уровень портала
Объединение тематических ресурсов в общую интегрированную информационную инфраструктуру поддержки научных исследований позволяет получить прямой доступ ко всем узлам Системы, уменьшает количество действий пользователя при общении с каждым узлом, позволяет отдельным узлам и отдельным сервисам данных узлов быть интегрированным в другие информационные системы, облегчает процесс администрирования Системы.
Интеграция информационных ресурсов подразумевает исполнение функций, обеспечивающих:
- Доступ ко всем интегрированным ресурсам через единые пользовательские интерфейсы по единым протоколам;
- Сквозной поиск во всем множестве интегрированных информационных ресурсов, а также в их логических и физических подмножествах;
- Извлечение информации в единых форматах;
- Управление ресурсами и доступом к ним в соответствии с едиными политиками;
- Контроль целостности и доступности сервисов для всех ресурсов;
- Сбор статистической информации об использовании ресурсов.
Источники информации – территориально распределенные Интернет-ресурсы, информация в которых основана на стандартизованных метаданных, и программные решения которых допускают применение стандартизованных протоколов для ее автоматической интеграции в создаваемую инфраструктуру, а также научные материалы научных организаций, библиотек, центров данных и др.
Сервис доступа к картографической информации
Сервис позволяет проводить быстрый поиск данных по различным критериям, и получать атрибутивную информацию об отдельном объекте, включая ссылку на данные. Для реализации сервиса каталога используется программный пакет с открытым исходным кодом GeoNetwork. Данные, представленные в каталоге, хранятся у поставщика данных на внешнем узле в виде векторных файлов, а также в виде отдельных слоёв в рамках сервисов доступа к пространственным данным, таких как OGC Web Map Service (OGC WMS) и OGC Web Feature Service (OGC WFS). На данный момент в каталоге доступны метаданные Всероссийского Геологического Института (ВСЕГЕИ) масштаба 1:1000000 третьего поколения по территории России, а также метаданные ВСЕГЕИ масштаба 1:200000 второго поколения по территории России.
Сервис доступа к спутниковым данным
Спутниковый блок предоставляет пользователям единую точку входа к данным спутников Aqua, Terra, Landsat, orbview-3 и к другим мультиспектральным данным высокого и среднего разрешения. Источником данных служат порталы спутниковых данных Центра спутникового мониторинга Института автоматики и процессов управления ДВО РАН, NASA, Геологической службы США (USGS). Поиск данных осуществляется в одном из трех режимов: поиск с помощью пользовательского поиска внешнего портала, поиск по метаданным, поиск по собственной базе данных метаданных спутниковых снимков. Спутниковые снимки обрабатываются в зависимости от имеющейся информации, но в любом случае пользователям предоставляется вся информация, включая обзорные изображения.
Сервис доступа к научным публикациям о геологии РФ
Сервис представляет собой репозиторий открытого доступа, созданный на основе свободно распространяемого программного обеспечения DSpace, 6.3 [2]. Основой информации являются научные статьи, монографии, диссертации, авторефераты диссертаций, тезисы докладов, материалы конференций, находящиеся в открытом доступе.
Публикации собираются из различных открытых источников: репозиториев других организаций, электронных библиотек, сайтов институтов геологического профиля РАН. Интегрируя публикации в репозиторий, авторы обеспечивают единообразный формат хранения, отображения и поиска информации. Для этих публикаций введены дополнительные метаданные, которые необходимы для дальнейшего использования. В стандартном варианте системы имеются следующие параметры поиска: дата публикации, авторы, наименование публикации. Автоматически определяется тема публикации, которая соответствует ключевым словам публикации. В параметры поиска добавлено еще два параметра – УДК и стратиграфический возраст. Название возраста определяется в автоматическом режиме из наименования либо абстракта статьи.
Извлекаемая из источников данных информация фильтруется, т.е. автоматически анализируется на совпадение со словарем геологических терминов. Словарь создан на основе ключевых слов ~ 2000 публикаций по тематике репозитория. Оптимальным является наличие 3-х совпадений со словарем. При этом удается выбрать около 90 % источников, соответствующих тематике репозитория. Оставшиеся 10 % подвергаются ручной обработке. Эта информация служит основой для корректировки словаря.
Для поиска и извлечения информации из других репозиториев создан скрипт на языке PHP. Извлекаемая информация фильтруется, т.е. автоматически анализируется на совпадение со словарем геологических терминов. Словарь создан на основе ключевых слов ~ 2000 публикаций по тематике репозитория. Оптимальным является наличие 3-х совпадений со словарем. При этом удается выбрать около 90 % источников, соответствующих тематике репозитория. Оставшиеся 10 % подвергаются ручной обработке. Эта информация служит основой для корректировки словаря.
Большое количество информации в открытом доступе представляют собой тексты в формате PDF. Добавление таких данных в репозиторий невозможно без сопутствующих этим текстам метаданных. Для извлечения метаданных из таких публикаций используется свободно распространяемое программное обеспечение: Cermine – Content Extractor and Miner, FPDI – коллекция PHP классов для обработки PDF документов, PDFMiner – программное обеспечение на Python для извлечения текстовой информации из PDF.
Извлекаемая из других репозиториев и из файлов PDF информация преобразуется в формат SIP, доступный для импорта в DSpace стандартными средствами. Для улучшения поиска информации в репозитории к существующим стандартным в DSpace поисковым тегам был добавлен тег УДК (универсальная десятичная классификация). Данная информация извлекается в полуавтоматическом режиме из выгруженного из DSpace бэкапа в формате SIP в текстовый файл с последующей загрузкой SQL скриптом в таблицу PostgreSQL DSpace.
Сервис доступа к Базам данных
На Портале организован удаленный доступ к метаинформации о месторождениях РФ и государственных геологических отчетах, находящихся в БД «Росгеолфонда», которые содержат информацию о 52 тыс. месторождений и 478 тыс. геологических отчетах.
Поиск по месторождениям использует фасетную технологию. Пользователь может выбрать месторождение по наименованию (после ввода первых четырех символов всплывает подсказка), или выбрать область, населенный пункт и т.п. Отдельно выбирается тип полезных ископаемых (на основе всплывающей подсказки).
Сервис доступа к количественным данным
Сервис осуществляет удаленный доступ к данным из мировых центров данных, например DataCite.
Сервис доступа к музейным данным
Удаленный доступ к открытым данным из мировых естественнонаучных музеев по территории России, включая доступ к данным Государственного геологического музея им. В.И. Вернадского РАН. В качестве решения использованы существующие протоколы доступа к музеям для получения выборки, связанной с Россией, и сохранением метаданных об экспонатах в виде наборов данных. Портал – агрегатор (http://museums.sgm.ru) разработан на платформе CKAN. Данное ПО позволяет легко оперировать наборами данных и создавать дополнительные модули, например, единый поиск по всем коллекциям.
Блок поиска данных
Система поиска преобразует сформированный пользователем запрос в последовательность запросов поиска названий и поиска по географическим координатам. После этого, запросы последовательно, из браузера пользователя передаются поисковым машинам отдельных блоков Портала (машины обрабатывают запросы параллельно), а они, в свою очередь, либо осуществляют поиск самостоятельно, либо обращаются к собственным поисковым системам блоков Портала или к глобальным поисковым системам.
Пользователь задает координаты района поиска, а система параллельно обращается к поисковым механизмам сервисов . Существуют две проблемы при поиске такого рода: а) блоки почти никогда не поддерживают поиск по координатам б) различные блоки имеют различные механизмы поиска, обладающие различной производительностью и результат поиска должен выводиться индивидуально для каждого сервиса.
Для решения проблемы была создана отдельная подсистема, получающая список географических объектов, находящихся на заданной территории (на основе сервиса OSM). Так как полный список объектов получить невозможно (число объектов для небольшого района исчисляется тысячами), а сервис OSM предоставляет только иерархию объектов, находящихся в данной точке (страна, край, район), то выполняется регулярный обход выбранного региона с выбором 64 регулярных и 64 случайных точек с созданием списка объектов. Данный список объектов фильтруется, так, что только часто встречающиеся названия не высоких уровней иерархии используются дальше. Данное решение не является наилучшим. В нем не используется информация о собственно геологических объектах или даже о больших географических образованиях (таких как, скажем, Саянские горы) если они не находятся в базе данных OSM.
Вычислительно-аналитический блок – облачный инструментарий пользователей для обработки и анализа различных типов геологических данных. Предложенный при построении подход предполагает использование территориально-распределенных вычислительных узлов, взаимодействие с которыми осуществляется с использованием технологии web-сервисов, в частности OGC Web Processing Service.
Реализованная платформа выступает в роли посредника между пользователем и внешними системами анализа и обработки, предоставляя единый интерфейс доступа ко всем алгоритмам анализа и обработки, имеющимися во внешних системах. Описанная архитектура также предполагает возможность использования данных не только из доступных в системе открытых источников, но и загрузку данных для анализа и обработки самим пользователем. В разрабатываемой системе вычислительно – аналитические блоки обработки и анализа геологической информации организованы в виде наборов служебных и аналитических функций с возможностью пользовательского доступа к выбору метода анализа и обработки; цепочек анализа и обработки, включающих загрузку данных, трансформацию форматов, методов анализа и визуализации результатов; тематических цепочек, осуществляющих последовательность методов анализа. Доступ к сервисам обработки и анализа осуществляется через платформу управления распределенными сервисами анализа и обработки данных.
В настоящее время Вычислительно-аналитическая геологическая среда включает в себя следующие территориально распределенные узлы обработки:
Вычислительный сервис «Многомерные методы анализа данных»
позволяет выполнять обработку табличных данных различными методами современного анализа данных с настройкой их параметров и визуализацией результатов. Он включает в себя такие группы методов как предобработка данных, описательная статистика, кластерный анализ, факторный анализ, корреляционный анализ, регрессионный анализ и другие. Вычислительный сервис «Многомерные методы анализа данных» входит в состав Вычислительно-аналитической геологической среды ГГМ РАН и интегрирован с её сервисами. При этом он является самостоятельным облачным web-сервисом, взаимодействие с которым происходит посредством REST API. Это позволяет обращаться к многомерным методам анализа данных, размещённым на вычислительном узле, широкому кругу пользователей, в том числе предоставляет возможность интегрировать его в другие информационные системы как стороннее приложение для обработки табличных данных. Узел разработан и поддерживается в Государственном геологическом музее им. В.И.Вернадского РАН.
Сервис первичной обработки спутниковых данных
Включает в себя методы первичной обработки спутниковых данных, такие как калибровка и пространственная привязка и управления ДВО РАН.
Сервис обработки петролого-геохимических данных.
В Институте Физики Земли РАН разработана интерактивная база методов обработки петролого-геохимических данных. Система предоставляет сервисы построения спайдерграмм, гистограмм и классификационных диаграмм; сервис идентификации минералов по их химическому составу; сервис интерпретации состава минерала и разложение на миналы и т.д. Интерфейс взаимодействия с сервисами построен на основе REST архитектуры.
Облачные интерактивные сервисы
Одним из наиболее популярных программных продуктов обработки табличных данных в интерактивном режиме является Excel из пакета Microsoft Office, доступ к которому реализован на Портале. Данный программный продукт содержит ряд инструментов для редактирования данных, построения различных диаграмм, использования встроенных процедур анализа и создания собственных. Компания Microsoft разработала бесплатную облачную версию продукта Excel (https://www.office.com/). Зарегистрированный пользователь может использовать полноценную web-версию для данных, расположенных в облачном хранилище Microsoft One Drive.
Сервисы анализа геологических данных на основе методов искусственного интеллекта
В настоящее время осуществляется разработка современных сервисов на основе методов искусственного интеллекта в рамках экосистемы данных и сервисов их обработки для поддержки научных исследований ГГМ РАН (https://geologyscience.ru ). Это сервисы реализуются в форме проблемно-ориентированных чат-ботов, в основе которых лежат большие языковые модели, для решения следующих задач: анализ публикаций (на примере информации Репозитория научных статей по геологии РФ ГГМ РАН – (https://repository.geologyscience.ru ), интеллектуальный поиск и анализ информации (на примере Энциклопедии месторождений России ГГМ РАН – http://wiki.geologyscience.ru ), интеллектуальный помощник по поиску данных и методов их обработки с постановкой задач на естественном языке. Вышеперечисленные сервисы являются самостоятельными веб-сервисами, имеющими возможности по их интеграции в вычислительные среды и информационные системы.
Сервис семантического поиска статей по искомому запросу на основании публикаций в репозитории https://geologyscience.ru
Поиск статей по запросу пользователя преобразуется в вычисление косинусной близости векторного представления запроса с векторными представлениями статей. Максимальные значения косинусной близости будут отражать искомые публикации.
Сервис определения близости двух текстов геологической направленности
Выполняется расчет векторных представлений абстрактов статей и выводится результат их косинусной близости.
Разработка интеллектуального цифрового пространства геологических знаний
Разработка интеллектуального цифрового пространства геологических знаний рассматривается нами в качестве перспективы развития и интеграции разнотиповых информационных ресурсов и сервисов в современной цифровой среде. Предполагается, что это пространство поможет сформировать новые процессы генерации данных и знаний.
Сервис доступа к экспертным знаниям
Одним из примеров текущей реализации Портала является Wiki-Геология России, которая интегрирует геологическую информацию из других частей системы и из внешних данных. Wiki-Геология России предоставляет пользователям не только информацию о геологических объектах, но и ряд сервисов по интеграции информации и ее анализу. Система интегрирует не только дополнительную информацию из научных публикаций, государственных геологических карт, но и спутниковые данные, музейные образцы и другую медиа информацию. В настоящее время пользователям Wiki-педии доступны следующие сервисы: построение географических карт районов месторождений с указанием точки, где расположено месторождение; визуализация геологических карт районов месторождений; определение возраста месторождения. В дальнейшем предполагается развитие и других сервисов.
Wiki-Геология России создается в рамках проекта GeologyScience.ru и является его составной частью, аккумулируя геологическую информацию из других частей системы и из внешних данных.
Wiki создается на основе свободного ПО MediaWiki с использованием дополнительных расширений. Основное – это Semantic MediaWiki, Cargo, ExternalData, Maps и авторские модули на PHP.
Цифровой ассистент геолога-исследователя
Цель – сопровождение и поддержка научных исследований в области геологии с использованием данных и сервисов информационно-аналитической среды ГГМ РАН в интерактивном режиме на естественном языке.
Интеллектуальные системы и приложения сокращают время, затрачиваемое пользователем на рутинные операции, будь то поиск контента, ответы на вопросы или решение стандартных задач, а также делают повседневную работу физически более комфортной.
Основными функциональными возможностями цифрового ассистента пользователя являются:
- Интеллектуальный анализ задачи пользователя. Предполагается, что будет построена система интеллектуального анализа задачи пользователя на основе лингвистического разбора текстовой постановки задачи, что позволит предлагать пользователю данные и методы анализа для ее решения.
- Организация доступа к данным Портала и данным пользователя;
- Организация хранения запрошенных данных пользователя на общедоступных облачных ресурсах, которые предоставляет Портал;
- Визуализация данных в разных форматах, полученных пользователем, в отдельных окнах рабочего кабинета пользователя;
- Организация доступа к сервтсам обработки и анализа полученных данных, включая визуализацию и хранение полученных результатов;
- Организация совместной работы территориально распределенных пользователей над проектами с использованием совместных данных.
- И др.
Системные сервисы Портала
- Общая аутентификация и авторизация. Пользователь может получить доступ к другим сервисам и ресурсам системы. Токен доступа (access token) хранит в себе информацию о пользователе, роли доступа, время жизни, цифровую подпись и алгоритм подписи для последующей валидации токена. Refresh token используется для получения новой пары токенов в микросервисе аутентификации при истечении времени действия ранее выданного токена доступа. Таким образом, другие модули системы могут получить информацию о текущем пользователе и его правах доступа на основе токена, сопровождающего запросы пользователя, без необходимости обращения к микросервису аутентификации и доступа к базе данных пользователей.
- Организация каталога данных и сервисов Портала.
- Мониторинг доступности информационных и вычислительных ресурсов системы. Для отслеживания состояния территориально распределенных компонентов Портала разработан модуль мониторинга, позволяющий с установленной периодичностью проверять доступность удалённых узлов и работоспособность используемых сервисов по указанным протоколам доступа. В качестве источника данных для мониторинга используется модуль каталога внешних сервисов обработки и анализа геологической информации.
- Сбор статистической информации о работе компонентов системы.
- Кеш базы данных системы.
- Балансировщик нагрузки.
Публикация
Наумова В.В., Еременко В.С., Загуменнов А.А., Патук М.И. Научный портал Geologyscience.ru: текущее состояние и перспективы развития// Геоинформатика. — 2023. — № 3. — С. 33–43. https://doi.org/10.47148/1609-364X-2023-3-33-43.164 .
Работы выполняются в рамках Государственного задания ГГМ РАН по Теме № 1021061009468-8-1.5.1 «Цифровая платформа интеграции и анализа геологических и музейных данных»
Исполнители:
Наумова В.В., руководитель работ
Ерёменко В.С.
Загумённов А.А.
Патук М.И., к.г.-м.н.
Контакт
Государственный геологический музей им. В.И.Вернадского РАН
125009, г.Москва, ул. Моховая, д.11, стр.11
Наумова В.В., зав. Научным отделом ГГМ РАН, г.н.с., д.г.-м.н.
E-mail: v.naumova@sgm.ru