Корзина (0)
В корзине пусто!
 «Библиометрические инструменты в помощь исследователю». Gephi. Импорт данных

«Библиометрические инструменты в помощь исследователю». Gephi. Импорт данных

51
0
15 Ноября, 2018

Продолжим наши эксперименты с Gephi и поговорим об импорте данных. 

Начнем с установки дополнительного модуля (надстройки).

  • Gephi> Сервис > Подключаемые модули > Доступные подключаемые модули

Выбираем Convert Excel and csv files to networks (на иллюстрации поля могут выглядеть несколько иначе, поскольку модуль уже установлен).

Что нам это даёт?

Базовые функции импорта Gephi воспринимают текстовые форматы данных:

https://gephi.org/users/supported-graph-formats/csv-format/

https://gephi.org/users/supported-graph-formats/spreadsheet/,

но данные приходится готовить, так как функции чувствительны к разделителям и заголовкам, установленный модуль упрощает импорт. 

Нажимаем Файл> Import…> Data Importer (co-occurences)

На следующем шаге выбираем CSV файл с выгрузкой из Scopus (для удобства читателей я выложу фрагмент выгрузки из Scopus [скачивать тут, файл data4gephi.zip]. В файле удалена часть ключевых полей, так что Elsevier это вряд ли возмутит). При открытии файла требуется указать тип разделителя -  в выгрузке из Scopus столбцы разделены запятыми, выбираем “comma”.

На третьем этапе указываем столбцы, содержащие объекты, связи между которыми мы хотим представить в виде графа. Если это однородные объекты – соавторы, ключевые слова, иные категории, перечислены в одном столбце, то мы выбираем этот столбец дважды, в верхнем и нижнем окнах.

 

На четвертом этапе мы указываем разделитель, используемый при перечислении объектов внутри ячейки. Будьте внимательны, в Scopus разделители могут отличаться! Так, для разделения авторов в поле Authors используются запятые, а для авторских идентификаторов в поле Author Ids – точки с запятой (см. ниже фото данных). Нас интересует коллаборация авторов, поэтому выбираем запятую (comma).

На этапе 5 ничего не меняем, у нас не динамический граф.

На этапе 6 ставим галочку напротив первого пункта, чтобы программа создала связи между объектами. 

 

На финальной стадии система нам покажет, что получается – 6406 авторов и 30,356 связей между ними. 

Ого! Откуда так много? Ведь мы только недавно работали с графом, в котором было всего 254 автора, а выгрузка из Scopus одна и та же? 

Вспомним, что при загрузке статей в VOSviewer программа нам предложила отфильтровать авторов с минимальным количеством статей и мы (малодушно) согласились. Сейчас же не отступим, нажимаем ОК.

 

 

 

 

Мой лэптоп (совсем не зверский) справился с этим объемом за доли секунды и показал ожидаемый «hairball» (термин я решил не переводить, а то не все читатели про трихобезоары знают).

Но мы знаем, что с помощью фильтров Gephi мы сможем взять из этого графа любую сеть объектов, например: 

 

  • соавторов Nielsen P.E. (по топологии ego network)

  • авторов с количеством статей > N (по значению frequency)

  • авторов, у которых число соавторов > K (по мощности degree)

 

Так и поступим. Давайте выделим сеть соавторов Nielsen P.E., у которых более чем 1 статья. Для этого нам необходимо объединить под оператором AND два фильтра –frequency со значением >1 и ego network со значением ID автора. 

 

К полученному графу применяем следующие настройки:

 

  • цвет соответствует кластеру (можно по модулярности, но можно также установить отдельный модуль для кластеризации по Girvan-Newman)

  • размер пропорционален количеству статей (frequency)

  • укладка Multi Gravity Forse Atlas 2 (отдельный модуль)

 

Стоит подчеркнуть, что фильтр Ego Network отбирает узлы и ребра для авторов, которые написали хотя бы одну  статью с Nielsen P.E., при этом отбираются также и статьи между соавторами Nielsen P.E., но без его участия. Именно поэтому размер узел для Corradini R. (48 статей) больше, чем для Nielsen P.E. (38 статей).

 

Резюме

В этом посте мы увидели, что в  Gephi можно загружать не только файлы с готовой сетевой структурой (узлы и ребра), но даже выгрузку из Scopus в формате CSV. 

Аналогичным образом можно загрузить и проанализировать ключевые слова, которые в выгрузке из Scopus также перечислены через запятую. Или состав продуктовой корзины покупателей, если данные об отдельных покупках представлены в виде строк, а продукты перечислены в одной ячейке (это уже не в Scopus).

Остановимся на этом, а в следующем части шагнем в новое измерение и попробуем сделать кое-что полезное для авторов. 

 

Предыдущие публикации серии доступны в блоге "Эко-Вектор" по тэгу aswp.

51
0
15 Ноября, 2018
Ваш комментарий будет первым

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, пользовательских данных (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) в целях функционирования сайта, проведения ретаргетинга и проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.

x