Первинні дослідницькі дані як джерело формування середовища наукових знаньЛ. Костенко, ст. наук. співроб. СІАЗ НБУВ, канд. технічних наук,
лауреат Держ. премії України в галузі науки і техніки

 

Первинні дослідницькі дані як джерело формування середовища наукових знань

 

Афоризм видатного мислителя XVII ст. Рене Декарта «уточніть значення слова, і ви звільните світ від половини непорозумінь» сьогодні такий же актуальний, як і чотири століття тому. Ураховуючи його загальну значущість, уточнимо спочатку суть понять, які утворюють словосполучення «первинні дослідницькі дані» та«середовище наукових знань».

«Первинні дослідницькі дані»  «primary research data»  – це впорядковані набори результатів наукових експериментів, гідрометеоспостережень, соціологічних обстежень тощо [1]. Вони повинні бути доступними для всіх користувачів і придатними для повторного використання без будь-яких обмежень чи контролю з боку їх публікатора. У фаховій літературі використовується також термін «первинні наукові дані»(primary science data).

Термін «знання» у філософії розглядають як інформацію, яка з різним ступенем достовірності та об’єктивності відображає у свідомості людини ті чи інші властивості існуючої дійсності (суб’єктивний образ об’єктивної реальності). У певному сенсі близьким до такого трактування є побутове уявлення про знання – те, що у людини в голові. «Наукове знання» – це об’єктивний вид знання, що відповідає вимогам логічної обґрунтованості та відтворюваності пізнавальних результатів [2].

«Середовище наукових знань» – підмножина інформаційного простору, що пов’язана з певною предметною галуззю [3]. У межах цієї публікації це сегмент мережі Інтернет, який включає впорядковані масиви наукових знань і первинних дослідницьких даних та систему комунікації. Віднесення до складників середовища наукових знань первинних дослідницьких даних, що являють собою латентні (потенційні) знання, змінює статус і роль цього середовища – з інфраструктурної складової науки воно трансформуватиметься в одного з учасників дослідницької діяльності.

Початок XXI ст. характеризується кардинальними змінами в науковій і науково-інформаційній сферах України та світу. Поряд з термінами «фундаментальна наука» та «прикладна наука» використовується термін «цифрова наука» [4]. Він характеризує нову методологію і новий стан наукових досліджень. Його основу становить триєдина сутність, що базується на цифровій формі представлення наукового контенту, аналітичному інструментарії для виявлення в ньому латентних (прихованих, неявних) закономірностей і інноваційних формах взаємодії вчених. У рамках цифрової науки набув поширення такий феномен як «віртуальні дослідницькі середовища» [5]. Вони є і сховищами наукового контенту, і «робочим столом ученого», оснащеним необхідним інструментарієм для проведення дослідницької роботи. Цей інструмент забезпечує насамперед проведення в текстових масивах інфометричних досліджень для виявлення в них латентних закономірностей і сприяння в отриманні вченими нових наукових знань. Формування ландшафту віртуальних дослідницьких середовищ в Україні перебуває на початковій стадії, однак із часом вони стануть одними з визначальних елементів у цифровому середовищі  наукових знань.

Перехід досліджень у цифрове середовище став викликом для інфосфери науки у двох аспектах – технологічному й методологічному. Технологічний аспект полягає в тому, що науково-інформаційна сфера у XXI ст. має орієнтуватися на оперування терабайтними масивами територіально розподілених інформаційних ресурсів, які інтегровано телекомунікаційними каналами зв’язку з пропускною спроможністю в сотні Мбіт/с. Комп’ютерні системи, що опрацьовуватимуть цю інформацію, повинні мати обчислювальні потужності, які вимірюються терафлопсами.

Методологічний аспект вищезгаданого виклику – необхідність перегляду концептуальних положень взаємодії науково-інформаційної сфери з дослідницькою та освітньою. У цифровому середовищі наукових знань принципово важливо досягти їх синергії. Це не локальна проблема, а нова парадигма системно-організаційної взаємодії науки й освіти з інфосферою, суть якої в необхідності розглядати їх як єдиний конструкт. Під парадигмою розуміється домінантний на певному етапі набір теоретико-методологічних положень, прийнятих науковим товариством як зразок (стандарт) при проведенні досліджень і систематизації їх результатів. Це поняття, що є одним із ключових у наукознавстві, введене в 1962 р. Т. Куном для визначення переходу від одного «спокійного» періоду розвитку науки до іншого.

Оскільки наука за своєю сутністю є транскордонною, не може бути української парадигми середовища наукових знань. Однак розглядати проблематику розбудови такого середовища в Україні з урахуванням вітчизняних реалій вбачається не лише доцільним, а й необхідним.

Одним із трендів його розвитку є формування архівів «первинних дослідницьких даних». Про зростання ролі цих даних свідчить наведений нижче рисунок, де представлено хронологію вживання їх англомовних визначень у бібліотечному проєкті Google Books [6] (фонд, сформований у рамках  цього проєкту, містить понад 30 млн відсканованих книг і журналів). Графік згенеровано інфометричним інструментом проєкту Ngram Viewer.

Рис. Хронологія частоти вживання термінів «primary research data»

і «primary scientific data» у зібранні Google Books

 

Первинні дослідницькі дані починають розглядатися як повноцінні результати професійної діяльності вчених, які мають враховуватися при оцінюванні результативності їхньої роботи. Про потребу застосування такого підходу йдеться в роботі [7], де зазначено: «Якщо публікації досі є валютою наукового визнання, то справжньою валютою науки є дані».

Щороку обсяги первинних дослідницьких даних майже подвоюються. Для їх аналізу з метою знаходження «тонких» ефектів, які не були враховані в попередніх дослідженнях, потрібні алгоритми, які одночасно можуть працювати з величезними наборами даних. Інформаційний бум привів до необхідності нових підходів до їх обробки, коли дослідники вживають інноваційні методи та засоби керування даними. Великі обсяги даних сприяють появі наукових відкриттів, але при цьому є труднощі, що пов’язані зі збереженням, пошуком і доступом до даних та їхнім аналізом.

Прикладом джерела петабайтних наборів даних є Великий адронний колайдер, який працює в European Particle Physics LaboratoryCERN [8] (Європейський центр фізики високих енергій), що формує петабайтні обсяги первинних дослідницьких для наступного аналізу.

Наукова спільнота традиційно визнає результатом дослідження наукову публікацію, а не дані чи програмне забезпечення, що сприяють появі публікації. Але відношення до оприлюднення первинних дослідницьких даних почало змінюватися. Постає питання про єдиний формат даних, який сприятиме сумісності та інтероперабельності інформаційних систем, оскільки дані повинні вживатися, інтерпретуватися і тлумачитися однаково.

Для надання нових імпульсів процесам формування баз первинних дослідницьких даних потрібно мати узгоджену світову політику цитування наборів таких даних. Перші кроки в цьому напрямі вже зроблено. У 2003 р. в межах розбудови національної інфраструктури е-науки Німецьке науково-дослідне товариство підтримало проєкт «Публікація та цитування первинних наукових даних», ідея якого полягала у створенні національної системи розподілених баз первинних дослідницьких даних з інтегрованим довідково-пошуковим апаратом. Зареєстровані в системі об’єкти вважаються повноцінними науковими документами. Показники їх цитування підраховують з використанням ідентифікатора цифрового об’єкта DOI (Digital Object Identifier). Згодом проєкт перетворився на міжнародний, його географія розширилася. До проєкту приєдналися профільні науково-інформаційні інституції й наукові бібліотеки США, Канади, Франції та інших держав.

Менеджмент первинних дослідницьких даних зацікавив бібліотеки дослідницьких інституцій. Така діяльність, спрямована на підтримку формування, зберігання та багаторазового використання наукових даних, отримала назву Data Curation [9] (адміністрування даних). Впровадження функцій Data Curation потребує не лише переосмислення пріоритетів у роботі бібліотек, а й вироблення відповідних навичок персоналу. Кваліфікована допомога вченому на етапі документальної реєстрації результатів досліджень вкрай потрібна, оскільки вже через кілька місяців після проведення експерименту він не може з упевненістю сказати, що означають цифри й позначення в його нотатках. Тому в бібліотекознавстві з’являється новий термін «бібліотекар-дослідник», який значну частину свого робочого часу працює поряд з ученими над вирішенням їхніх наукових завдань або забезпечує експертизу отриманих результатів [10]. Така трансформація місії бібліотекарів вбачається перспективною, хоча й потребує підвищення їхньої кваліфікації.

У США та країнах Європи перші спроби системної роботи академічних бібліотек з первинними дослідницькими даними проводилися ще в кінці XX ст. Перша європейська «бібліотека даних» з’явилася в Університеті Единбургу (Велика Британія) в 1983 р. Заслуговує на увагу проєкт бібліотеки Університету Джонса Хопкінса (США) з первинними дослідницькими даними в галузі астрономії. Проєкт передбачав збереження масивів зображень зоряного неба, які регулярно надходять від дослідників, що працюють з телескопами. Архівування оригіналів, отриманих з телескопів, та організація їх у колекції, які були б придатні для подальшого використання – важлива справа для майбутнього астрономічної науки. Тому університетська бібліотека взяла на себе комплекс завдань щодо створення єдиного інституційного архіву астрономічних зображень. З часом було налагоджено співпрацю з Національним науковим фондом і бібліотека долучилася до створення Національної віртуальної обсерваторії.

Набори первинних дослідницьких даних не просто документи у звичному для бібліотекарів сенсі. Особливих підходів вимагає і політика збереження даних. Деякі дані (наприклад, дані гідрометеоспостережень) важливі в історичному контексті (і не можуть бути відтворені у майбутньому). Дані обчислень можуть вимагати збереження повної обчислювальної моделі та умов їх отримання, але не результатів обчислень як таких, оскільки теоретично ці результати можуть бути відтворені.

На останок, первинні дослідницькі дані мають органічно доповнювати та збагачувати існуючу систему наукових публікацій. Так, електронні таблиці, фото- і відеофрагменти, моделі, візуалізації тощо можуть включатися до фахових статей, доповідей та інших наукових продуктів. Таким чином, результати наукової діяльності стають оформленими у комплексні цифрові документи.

Серед закладів вищої освіти, які вже ввели спеціалізації менеджменту первинних дослідницьких даних на бібліотечних факультетах, можна назвати університети США та Великої Британії. Для подальшого розвитку цього напряму сьогодні не вистачає ґрунтовної теоретичної бази, наукових шкіл із цифрової гуманітаристики, навчальної інфраструктури та, головне, узгодженої позиції і підходів серед бібліотекознавців. Наукові бібліотеки, як зазначалося вище, мають сучасні технологічні засоби та досвід їх використання. Більш того, бібліотеки вже багато років, по суті, є генераторами первинних дослідницьких даних для окремих сфер цифрової гуманітарної науки. Вони відіграють ключову роль у процесах оцифрування та менеджменту наборів даних у галузі історичних наук. Бібліотека стає лабораторією гуманітарія.

Для ефективного розвитку менеджменту первинних дослідницьких даних бібліотекам сьогодні потрібні ресурси – штат і фінансування. Кадровий ресурс – серйозна перешкода на шляху до впровадження технологій цифрової науки. Для розв’язання кадрового питання розвитку цифрової науки потрібно на вищому рівні передбачити механізми заохочення інформаційних фахівців (бібліотекознавців, архівознавців та інших) отримання додаткової освіти у сфері менеджменту первинних дослідницьких даних. Бюджети державних та наукових установ повинні передбачати цільові кошти на проведення перепідготовки інформаційних фахівців. Лише це забезпечить їх ефективне залучення до розбудови інфраструктурної складової науки XXI ст.

Сервіси первинних дослідницьких даних в Україні поки що не набули належного поширення. Тому може скластись уявлення, що технології Data Curation надходять до нас із Заходу. Однак у цьому випадку доцільно згадати вислів «нове – це добре забуте старе». Вже в другій половині XX ст. на теренах колишнього СРСР аналогічні технології успішно розвивалися в рамках створення систем автоматизації наукових досліджень. Про глибину проробки їх організаційно-методичних засад свідчить поява в 1980 р. такого нормативного документа як «Загальногалузеві керівні методичні матеріали щодо створення автоматизованих систем наукових досліджень і комплексних випробувань зразків нової техніки» («Общеотраслевые руководящие методические материалы по созданию автоматизированных систем научных исследований и комплексных испытаний образцов новой техники») [11]. У ньому зазначалось, що ці системи являють собою «… програмно-апаратні комплекси на базі засобів обчислювальної техніки, призначені для проведення наукових досліджень або комплексних випробувань зразків нової техніки на основі отримання і використання моделей досліджуваних об’єктів, явищ і процесів». Фактично в системах автоматизації наукових досліджень вже була закладена й апробована впродовж кількох десятиліть функція збору та обробки первинних дослідницьких даних. Однак тогочасні інформаційно-технологічні можливості, насамперед в аспекті довгострокового зберігання значних обсягів отриманих даних, не дали змоги досягти бажаних результатів. Сьогодні з появою носіїв інформації великої ємності системи автоматизації наукових досліджень відроджуються на новому рівні та під іншими назвами. Згадана вище технологія Data Curation, яка орієнтована на залучення бібліотечних інституцій до первинних стадій досліджень, – один з її сучасних варіантів.

Хоча сервіси Data Curation і вважаються в Україні новацією, певні здобутки в цій царині вітчизняні дослідники мають. Їх прикладами можуть слугувати інформаційні системи, представлені в довідковому онлайновому виданні «Перспективні науково-технічні розробки НАН України (2017, 2019)»[12]. Однак за наявності понад ста академічних розробок, які є потенційними сервісами Data Curation, їх більша частина залишається незатребуваними через кризові явища в економіці. Серед винятків із цього правила слід назвати лексикографічні проєкти Українського мовно-інформаційного фонду [13], базу даних наукового експерименту та спостереження  Інституту ядерних досліджень [14] тощо. Вбачається доцільним першочергове залучення технологій Data Curation до первинної обробки даних у центрах колективного користування унікальним науковим обладнанням.

Висновки. Світ первинних дослідницьких даних принципово важливий для інформаційних інституцій. Їх залучення до процесів збирання, збереження та розповсюдження результатів досліджень саме на перших фазах науково-дослідного циклу відкриває перед цими інституціями широкі можливості щодо глобального перегляду їх ролі та значущості як інформаційних менеджерів і хранителів інтелектуальних надбань. Це створює передумови для трансформації інформаційних інституцій з інфраструктурних елементів науки й освіти в їх безпосередніх учасників.

 

Костенко Л. Первинні дослідницькі дані як джерело формування середовища наукових знань [Електронний ресурс] / Л. Костенко // Шляхи розвитку української науки: суспільний дискурс. – 2021. – № 6. – С. 3–9. – Режим доступу: http://nbuviap.gov.ua/images/nauka/2021/06nauka.pdf. – Назва з екрану.


[1] Копанєва В. О. Бібліотека в середовищі цифрової науки: системно-інтеграційна взаємодія / наук. ред. О. С. Онищенко. Київ : Ліра-К, 2020. 322 с.

[2] Філософський енциклопедичний словник / НАН України, Ін-т філософії ім. Г. С. Сковороди; [редкол.: В. І. Шинкарук (голова) та ін.]. Київ : Абрис, 2002.  VI, 742 с.

[3] Ожерельева Т. А. Об отношении понятий информационное пространство, информационное поле, информационная среда и семантическое окружение. Международный журнал прикладных и фундаментальных исследований. 2014.  № 10. Ч. 2. С. 21–24.

[4] Згуровский М. З., Петренко А. И. Становление и горизонты цифровой науки. Системні дослідження та інформаційні технології. 2014.  № 4.  С. 7–19.

[5] Candela L., Castelli D., Pagano P. Virtual Research Environments: An Overview and a Research Agenda. Data Science Journal.  2013.  Vol. 12. http://doi.org/10.2481/dsj.GRDI-013.

[6] Савицкая Т. Е. Проект Google Book Search: за и против. Обсерватория культуры.  2016.  Т. 13, № 4. С. 420–428.

[7] Gold A. Cyberinfrastructure, Data, and Libraries, Part 1: A Cyberinfrastructure Primer for Librarians. D-Lib Magazine.  2007.  Vol. 13, No. 9/10. http://doi.org /10.1045/september20september-goldpt1.

[8] CERN. URL: https://home.cern/.

[9] Земсков А. И. Data Curation – хранение научных данных и обслуживание ими – новое направление деятельности библиотек. Научные и технические библиотеки. 2013. № 2. С. 85–101.

[10] Соловяненко Д. Академічні бібліотеки у новому соціотехнічному вимірі: Частина четверта. Сучасний рівень дискурсу академічного бібліотекознавства та поступ е-науки. Бібліотечний вісник. 2011. № 1. С. 8–24.

[11] Общеотраслевые руководящие методические материалы по созданию автоматизированных систем научных исследований и комплексных испытаний образцов новой техники (АСНИ) / Государственный Комитет СССР по науке и технике. М., 1980.

[12] Довідкове видання «Перспективні науково-технічні розробки НАН України (2017, 2019)».

URL: http://www.nas.gov.ua/RDOutput/UA/book2017.

[13] Ресурси на сайті Українського мовно-інформаційного фонду НАН України.

URL: http://lcorp.ulif.org.ua/LSlist/

[14] Коваленко О. В. Концептуальні основи створення бази даних наукового експерименту та спостереження. Математичні машини і системи. 2016. № 2. С. 91–101.