Сервис представляет собой репозиторий открытого доступа, созданный на основе свободно распространяемого программного обеспечения DSpace, 6.3 [2]. Основой информации являются научные статьи, монографии, диссертации, авторефераты диссертаций, тезисы докладов, материалы конференций, находящиеся в открытом доступе.
Публикации собираются из различных открытых источников: репозиториев других организаций, электронных библиотек, сайтов институтов геологического профиля РАН. Интегрируя публикации в репозиторий, авторы обеспечивают единообразный формат хранения, отображения и поиска информации. Для этих публикаций введены дополнительные метаданные, которые необходимы для дальнейшего использования. В стандартном варианте системы имеются следующие параметры поиска: дата публикации, авторы, наименование публикации. Автоматически определяется тема публикации, которая соответствует ключевым словам публикации. В параметры поиска добавлено еще два параметра – УДК и стратиграфический возраст. Название возраста определяется в автоматическом режиме из наименования либо абстракта статьи.
Извлекаемая из источников данных информация фильтруется, т.е. автоматически анализируется на совпадение со словарем геологических терминов. Словарь создан на основе ключевых слов ~ 2000 публикаций по тематике репозитория. Оптимальным является наличие 3-х совпадений со словарем. При этом удается выбрать около 90 % источников, соответствующих тематике репозитория. Оставшиеся 10 % подвергаются ручной обработке. Эта информация служит основой для корректировки словаря.
Для поиска и извлечения информации из других репозиториев создан скрипт на языке PHP. Извлекаемая информация фильтруется, т.е. автоматически анализируется на совпадение со словарем геологических терминов. Словарь создан на основе ключевых слов ~ 2000 публикаций по тематике репозитория. Оптимальным является наличие 3-х совпадений со словарем. При этом удается выбрать около 90 % источников, соответствующих тематике репозитория. Оставшиеся 10 % подвергаются ручной обработке. Эта информация служит основой для корректировки словаря.
Большое количество информации в открытом доступе представляют собой тексты в формате PDF. Добавление таких данных в репозиторий невозможно без сопутствующих этим текстам метаданных. Для извлечения метаданных из таких публикаций используется свободно распространяемое программное обеспечение: Cermine — Content Extractor and Miner, FPDI – коллекция PHP классов для обработки PDF документов, PDFMiner – программное обеспечение на Python для извлечения текстовой информации из PDF.
Извлекаемая из других репозиториев и из файлов PDF информация преобразуется в формат SIP, доступный для импорта в DSpace стандартными средствами. Для улучшения поиска информации в репозитории к существующим стандартным в DSpace поисковым тегам был добавлен тег УДК (универсальная десятичная классификация). Данная информация извлекается в полуавтоматическом режиме из выгруженного из DSpace бэкапа в формате SIP в текстовый файл с последующей загрузкой SQL скриптом в таблицу PostgreSQL DSpace.