Научные публикации о геологии РФ

Сервис представляет собой репозиторий открытого доступа, созданный на основе свободно распространяемого программного обеспечения DSpace, 6.3. Основой информации являются научные статьи, монографии, диссертации, авторефераты диссертаций, тезисы докладов, материалы конференций, находящиеся в открытом доступе.

Публикации собираются из различных открытых источников: репозиториев других организаций, электронных библиотек, сайтов институтов геологического профиля РАН. Интегрируя публикации в репозиторий, авторы обеспечивают единообразный формат хранения, отображения и поиска информации. Для этих публикаций введены дополнительные метаданные, которые необходимы для дальнейшего использования. В стандартном варианте системы имеются следующие параметры поиска: дата публикации, авторы, наименование публикации. Автоматически определяется тема публикации, которая соответствует ключевым словам публикации. В параметры поиска добавлено еще два параметра – УДК и стратиграфический возраст. Название возраста определяется в автоматическом режиме из наименования либо абстракта статьи.

Извлекаемая из источников данных информация фильтруется, т.е. автоматически анализируется на совпадение со словарем геологических терминов. Словарь создан на основе ключевых слов ~ 2000 публикаций по тематике репозитория. Оптимальным является наличие 3-х совпадений со словарем. При этом удается выбрать около 90 % источников, соответствующих тематике репозитория. Оставшиеся 10 % подвергаются ручной обработке. Эта информация служит основой для корректировки словаря.

Для поиска и извлечения информации из других репозиториев создан скрипт на языке PHP. Извлекаемая информация фильтруется, т.е. автоматически анализируется на совпадение со словарем геологических терминов. Словарь создан на основе ключевых слов ~ 2000 публикаций по тематике репозитория. Оптимальным является наличие 3-х совпадений со словарем. При этом удается выбрать около 90 % источников, соответствующих тематике репозитория. Оставшиеся 10 % подвергаются ручной обработке. Эта информация служит основой для корректировки словаря.

Большое количество информации в открытом доступе представляют собой тексты в формате PDF. Добавление таких данных в репозиторий невозможно без сопутствующих этим текстам метаданных. Для извлечения метаданных из таких публикаций используется свободно распространяемое программное обеспечение: Cermine — Content Extractor and Miner, FPDI – коллекция PHP классов для обработки PDF документов, PDFMiner – программное обеспечение на Python для извлечения текстовой информации из PDF.

Извлекаемая из других репозиториев и из файлов PDF информация преобразуется в формат SIP, доступный для импорта в DSpace стандартными средствами. Для улучшения поиска информации в репозитории к существующим стандартным в DSpace поисковым тегам был добавлен тег УДК (универсальная десятичная классификация). Данная информация извлекается в полуавтоматическом режиме из выгруженного из DSpace бэкапа в формате SIP в текстовый файл с последующей загрузкой SQL скриптом в таблицу PostgreSQL DSpace.

Организация: Государственный геологический музей им. В.И. Вернадского РАН

Контактные данные: Патук Михаил Иванович, m.patuk@sgm.ru

ПЕРЕЙТИ К СЕРВИСУ