Корзина (0)
В корзине пусто!
«Библиометрические инструменты в помощь исследователю». Gephi. Биграфы и проекции

«Библиометрические инструменты в помощь исследователю». Gephi. Биграфы и проекции

51
0
20 Ноября, 2018

О том, что мы разбирали в прошлых постах, можно вспомнить, используя тэг aswp. Поэтому повторяться не будем и сразу приступим к обещанному переходу в новое пространство.

Библиометрические базы данных, как правило, показывают, сколько вышло публикаций по теме, в каких журналах, у каких авторов, с какими ключевыми словами, но всё это представляется в виде архаичных «сводочек», в кирпично-табличном виде.

VOSviewer может показать связи между авторами или ключевыми словами, что уже позволяет визуализировать группы соавторов или близких терминов, но мы не можем увидеть термины, сгруппированные вокруг авторов, или авторов, сгруппированных вокруг журналов.

Внимательный читатель вспомнит, что в одной из прошлых частей уже появлялся тизер такого графа, сейчас мы готовы научиться их строить.

  • Убедитесь, что у вас установлен модуль Convert Excel and csv files (см. часть 9)

  • Выбираем Файл>> Import…>> Data Importer (co-occurences)

  • Выбираем CSV файл с выгрузкой из Scopus (файл data4gephi.zip)

  • Указываем тип разделителя “comma”.

На третьем этапе мы выбираем объекты не одинакового типа (как делали в прошлый раз), а разного – журнал (Abbreviated Source Title) и авторов (Authors).  

  • на следующем этапе для журнала мы разделители не указываем, т.к. в одной ячейке указано единственное значение, а для авторов выбираем разделитель «comma».

  • этап №5 с настройкой динамического графа мы пропускаем (без изменений)

  • на предпоследнем этапе 6 мы отметим первый пункт, чтобы Gephiп остроил связи не только между журналами и авторами, но и между соавторами.

Получаем 7040 узлов и 40037 рёбер.

Обратим внимание, что у узлов появился новый атрибут (type), который позволяет разделять узлы на журналы и авторов (причем Gephi из-за ошибки прочтения создал 2 типа для авторов, которые мы позже объединим).

 

Мы уже говорили о том, что для характеристики направления исследований коллектива нам не обязательно включать в исследование молодых участников коллабораций, у которых лишь 1-2 статьи, поэтому мы выбираем только лидеров групп, у которых не менее N статей. Аналогичным образом, мы выбираем только журналы, в которых было более D статей.

Как выбрать N и D? Это можно определить, играясь с фильтром «Диапазон». Устанавливая минимальный порог упоминаний равным 7 (для узлов всех типов), мы получаем 193 узла.

Если необходимо сделать отдельную оценку для каждого из объектов, то можно сконструировать вложенные фильтры «Разбиение» (по типу) и «Диапазон» (по частоте встречаемости).

Выберем следующие условия [авторы: > 4 статей, журналы: > 1 статьи].

Открываем Таблицу данных  >> вкладка Узлы, обращаем внимание на новый для нас столбец type, который, как мы помним, Gephi по ошибке заполнил 3 типами данных.

 

1) Исправим ошибку. В фильтре по полю Type набираем Auth >> клик правой клавиши >> Tag Nodes >> выбираем столбец type >> вводим новое (объединяющее) название Authors.

2) Нажимаем на кнопку «Добавить столбец», называем его “work”. В нем будем помечать строки, которые мы хотим в итоге отобрать.

3) Делаем клик по заголовку столбца frequency, чтобы отсортировать данные по возрастанию количества упоминаний.

4) В фильтре typeвводим Authors >> выделяем строки, в которых frequencyбольше 4 >> делаем правый клик по выделенным строкам >>  Ctrl+T(Tag Nodes) >> в столбец workдобавляем значение Yes >> снимаем фильтр.

5) В фильтре type указываем Abbreviated Source Titles >> выбираем строки, в которых frequency имеет значение от 2 и выше >>правый клик по выделенным строкам >> Ctrl+T (Tag Nodes) >> в столбец work добавляем значение Yes>> снимаем фильтр.

6) Сортируем столбец work>> выбираем все строки со значением Yes>> правый клик по выделенным строкам >> Скопировать на... >> Новую рабочую область.

Получаем граф, в котором 501 узел и 2290 связей.

 

 

Отметим, что в графе появились узлы, у которых нет связей – возможно, это были журналы, в которых вышло 2 или даже 3 статьи, но каждая была от автора-новичка (обращаю внимание на дефис), мы последних удалили и журналы остались без связей. Удалим и их, воспользовавшись фильтром Топология >> Диапазон мощности (значение = 0) – еще 48 узлов долой.

 

Изучим наш граф с помощью функций вкладки «Статистика»:

А) функция «Связные компоненты». Оказывается, что у нас всего 2 таких компоненты – маленькая группа из 4 авторов, которые опубликовали статьи в двух не очень популярных журналах, и всё остальное большое community, которое публикует статьи в одних и тех же журналах. Далее будем исследовать только самую большую связную компоненту.

Б) функция «Кластеризация по Girvan-Newman» обнаруживает 43 кластера. Среди них несложно найти группу российских авторов, опубликовавших свои работы в журналах Electroforesis и «Биоорганическая химия». Поскольку в этих изданиях другие авторы сообщества не публикуют свои работы, то кластер с российскими авторами-изданиями довольно отчетливо изолирован на периферии (на картинке ниже все типы узлов раскрашены одним цветом по результатам кластеризации).

 

Для подобных визуализаций в Gephi есть небольшое неудобство – при отрисовке финальной версии графа программа не позволяет выводить метки узлов (надписи) только для одного типа (например, только для журналов). Их можно раскрасить разными цветами, как мы поступили выше, но иногда ведь стоит задача показать либо авторов, либо журналы. Решается проблема несложным обходным маневром – в Таблице данных из столбца Label создаются 2 копии (новых столбца), в одном удаляются названия журналов (фильтровать по типу), в другом – фамилии авторов. И когда необходимо вывести граф с названиями только журналов, то соответствующий столбец копируется обратно в Label, который используется отрисовщиком. Результат представлен на иллюстрации ниже – вершины раскрашены в соответствии с типом, надписи выведены только для изданий. Наверное, будет не лишним еще раз подчеркнуть – расположение журнала в центре или на периферии графа ничего не говорит о реальном уровне изданий. Можно лишь говорить о том, что издание в центре более значимо (или «релевантно») для сообщества, в нем публикуются многие авторы, тогда как в журналах, которые видны на периферии графа, по исследуемой теме работы выходят редко и лишь от нескольких авторов.

 

Рассказ о двудольных графах (состоящих из вершин разных типов данных) невозможен без разговора о проекциях. Предположим, есть журналы А, Б и В, автор xx публиковался в А и Б, а автор yy – в Б и В. Мы можем оценить близость журналов, исходя из связей графа А-xx-Б-yy-В, получится граф А-Б-В (в более сложной ситуации вес связей между журналами определяется количеством статей). Разумеется, «тематическую» близость изданий можно оценивать и другими способами, например, сравнивая списки литературы, но это уже совсем другой разговор.

Попробуем сделать проекции. Необходимо установить нужный модуль и применить настройки, как на картинке.

 В результате получается граф с 185 узлами (только журналы). Разбиваем новый граф на кластеры по значению модулярности (их получается 5), раскрашиваем узлы в соответствии с результатами, и получаем такую картину. 

Граф растянулся, чтобы длинные названия журналов не накладывались друг на друга, поэтому сделаем еще одну, более очевидную укладку, организовав журналы в визуально различимые группы, исходя из значений модулярности. 

Красота?!

Увы, график не случайно перечеркнут красным! Таких иллюстраций делать не следует! Не потому, что похоже на «бяку», а принимая во внимание тот факт, что, изменяя параметр resolution (похожий на тот, что мы встречали при кластеризации в VOSviewer), мы сами уменьшаем или увеличиваем количество кластеров, создавая ручки-ножки морской звезде…

 

Разносить данные по лучам звезды имеет смысл для номинативных переменных (национальность, группу крови, место рождения, принадлежность к политической партии и т.д.).

Резюмируем: 

Мы научились создавать проекты Gephi, в которых можно выбрать группу авторов и увидеть журналы, в которых они публиковали свои работы, или наоборот – выбрать журналы и увидеть авторов, которые в них публиковались. Обе задачи решаются с помощью фильтра Топология >> Ego-Nеtwork (см. предыдущие посты).

В этот же проект можно аналогичным образом импортировать другие пары объектов {журналы vs. ключевые слова}, {ключевые слова vs. авторы}, и хранить их на отдельных листах. Любую двудольную сеть можно конвертировать в простой граф, состоящих из объектов одного типа, сила связей между которыми определяется взаимодействиями с объектами другого типа.

И последнее, после расчета каждой из статистик показатели узла добавляются в Таблицу данных, которую можно затем выгрузить в Excel – например, чтобы построить сводную таблицу вида (журнал vs. Топ-5 авторов).

 

На этом закончим нашу DIY-инструкцию «scival своими руками» (это шутка).

51
0
20 Ноября, 2018
Ваш комментарий будет первым

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, пользовательских данных (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) в целях функционирования сайта, проведения ретаргетинга и проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.

x