Корзина (0)
В корзине пусто!
«Библиометрические инструменты в помощь исследователю». Gephi. Карты и география

«Библиометрические инструменты в помощь исследователю». Gephi. Карты и география

1451
0
22 Ноября, 2018

Мы продолжаем исследовать возможности Gephi (прошлые выпуски см. по тегу aswp) и в этом выпуске научимся делать карты, на которых отображается география коллабораций.

Scopus содержит колонку Affiliations с названием и адресом учреждений, но работать с ней совсем не просто. Дело в том, что политика индексирования Scopus не позволяет изменять записи в полях, а сами авторы в статьях используют десятки, а иногда и сотни формулировок для обозначения своей принадлежности к одному и тому же учреждению. В Scopus это решается привязкой статей к профилям учреждений, но только унифицированные названия и идентификаторы профилей Scopus при выгрузке не отдает (только SciVal это позволяет), поэтому... Что мы делаем? Правильно, обращаемся к конкурентам! 

 

Знакомимся, Dimensions! О качествах поисковой системы и индексации сервиса я рассуждать не возьмусь, но для нас важно следующее:

  • Dimensions индексирует очень солидный список изданий (по заявленному объему статей они превосходят и Scopus, и Web of Science Core Collection)

  • Компания Digital Science поддерживает базу научных учреждений GRID (https://www.grid.ac/), которая содержит не только названия и адреса, но также географические координаты. База регулярно обновляется (в 2018 году вышло 4 версии, в последней 89506 учреждений) и распространяется по лицензии CC0 (неограниченное использование).

  • Зарегистрированные пользователи Dimensions могут выгружать по 500 записей, в которых есть унифицированные названия из GRID.

Начинаем последовательность шагов, которая в этот раз будет настолько длинной, что даже от читателей потребует немалой усидчивости:

 

1. Зарегистрируйтесь в Dimensions

 

2. Скачайте свежую версию базы 

 

3. Выполняем поиск в Dimensions “peptide-nucleic acids” (можно и“peptide nucleic acid”) по полям «Title and Abstract».

 

4. Скачиваем статьи за 2016, 2017 и 2018 год (у меня получилось 446 статей), функция Save/Export – Export to XLSX

 

5. Открываем скачанный файл, удаляем первую строку (которая будет мешать Gephi), сохраняем файл в CSV.

 

Сразу обращаем внимание на формат описания данных с адресом:

  • аффилиация находится в круглых скобках после автора: Author, X (Affiltiation A)

  • соавторы разделены точкой с запятой: Author, X (Affiltiation A); Author, Y (Affiltiation B)

  • есть авторы без аффилиации: Author, X()

  • есть авторы с несколькими аффилиациями, которые также разделены точкой с запятой: Author, X (Affiltiation A1; Affiltiation A2)

Поскольку мы условились обходиться без программирования, нам гарантировано незабываемое «веселье»! Сразу подчеркну, что для обработки данных будет использоваться упрощенный («brute force») подход, потому что иначе не получится.

 

6. Устанавливаем в Gephi плагин.

 

7. Загружаем CSV файл в Gephi, используя уже знакомый импортер (см. части 8 и 9) – на 2 шаге указываем разделитель «comma», на 3 шаге выбираем Author Affiliations в обоих полях, на 4 шаге указываем разделитель «semicolon», на 6 шаге отмечаем галочкой первый и третий пункты.

 

Может показаться, что особого смысла в последней галочке нет, но речь совсем не о шансах двух полных однофамильцев, работающих в одном учреждении, стать соавторами. Вспомним, что Dimensions использует точку с запятой также для разделения множественных аффилиаций, которые при нашем способе разбиения оторвутся от авторов и могут создать бессмысленные связи Университет N – Университет N.

 

На финальной стадии система может указать, что в данных присутствовали пустые поля – принимаем несовершенство мира и нажимаем ОК. Получилось 2312 узлов и 10717 ребёр.

 

9. На граф можно не смотреть, переходим в раздел «Таблица с данными» и поочередно экспортируем узлы и рёбра (в меню «Экспортировать таблицу)» в отдельные файлы CSV.

 

10. Собираем в Excelна отдельных листах:

  • лист nodes – выгруженный файл с узлами

  • лист edges – выгруженный файл с ребрами

  • лист institutes – файл institutes.csv из GRID

  • лист addresses – файл addresses.csv из GRID

11. На листе institutes создаем копию столбца А справа от таблицы

12. На листе nodes создаем справа от таблицы 5 столбцов:

  • столбец G, название temp, в него помещаем формулу: G2=IF(RIGHT(B2,1)=")",LEFT(B2,LEN(B2)-1),B2)

 

  • столбец F, название grid.name, в него помещаем формулу: F2=IF(ISERROR(FIND("(",F2)),F2,REPLACE(F2,1,FIND("(",F2),""))

 

  • столбец H, название grid.id, в него помещаем формулу: H2=IF(G2="","",VLOOKUP(G2,institutes!$B$2:$F$89507,5,0))

 

  • столбец I, название lat, в него помещаем формулу: I2=IF(H2="","",VLOOKUP(H2,addresses!$A$2:$F$89507,5,0))

 

  • столбец J, название long, в него помещаем формулу: I2=IF(H2="","",VLOOKUP(H2,addresses!$A$2:$F$89507,6,0))

 

Должно получиться что-то вроде того, как на картинке (столбцы B-F скрыты для удобства):

Может показаться, что в данных многовато #N/A, которые появляются в тех случаях, если у автора нет аффилиации или если она искажена корявицей (мы не будем тратить время на то, чтобы подружить языковые настройки windows-firefox-gephi-excel, продолжим «как есть»). 

Оценим количество #N/A. В общем объеме упоминаний (по столбцу frequencies) доля ошибочных аффилиаций составляет 20%, но ошибки в результате искажения названий занимают всего 3%. Если очень хочется, эти 3% можно убрать, вручную отыскав в GRID названия по неискаженным фрагментам и подставив grid.id в столбец H (координаты подтянутся автоматически).

А что с оставшимися 17%? Сколько мы упускаем точек на карте и учреждений?

Очевидно, что некоторая часть авторов с недостающими аффилиациями работают в одном учреждении. При этом отсутствие в поле аффилиации названия из базы GRID может означать одно из двух – либо организация не так часто появляется в мировых публикациях (эвфемизм для «малозаметный»), либо название было написано автором настолько экзотичным способом, что в GRID ему не смогли подобрать аффилиацию. В последнем случае мы не обязательно теряем учреждение, потому что в выборке могут быть и другие статьи этого же автора или его коллег – в этом случае точка на карте появится, но, возможно, не будет видно ребра какой-то коллаборации. Принимая во внимание вышесказанное, я бы оценил количество упущенных аффилиаций (точек, которые не проявятся на карте) максимум в 5%. 

А какова альтернатива? Если мы решим использовать данные Scopus/Web of Science, главной проблемой станет не поиск сервиса для геокодинга (хотя в этой части есть свои ограничения по объему «простого и бесплатного»), а унификация названий. Читатели могут попробовать загрузить данные из столбца affiliations выгрузки Scopus в любой онлайн-геокодер, чтобы убедиться в том, что предположительно достигнутые нами 95% идентификации организаций – это очень даже «ничего себе».

Отдохнули от Excel, но нам к нему же возвращаться.

13. На листе edges переименовываем первые 2 столбца в Source_old и Target_old, и создаем справа от таблицы 2 новых столбца: Source и Target.

  • столбец H, название Source, в него помещаем формулу: H2=VLOOKUP(A2,nodes!$A$2:$H$2313,8,0)

  • столбец I, название Target, в него помещаем формулу: I2=VLOOKUP(B2,nodes!$A$2:$H$2313,8,0)

Мы меняем названия узлов на grid.id, чтобы не зависеть от требований программ к кодировкам. При этом обнаруживаем, что у нас появляются одинаковые пары Source-Target (да и на листе Nodes тоже появилось много дубликатов, так как мы убрали имена авторов и остались только учреждения). Ну что же, «брутфорсить», так до конца...

 

14. Делаем из листа nodes и edges сводные таблицы – pivot_nodes и pivot_edges, соответственно, выстраиваем их как на рисунке ниже, фильтрацией убираем все значения #N/A из столбцов grid.name (в таблице pivot_nodes) и Source, Target (в таблице pivot_edges), а значения Weight и Frequences суммируем. На иллюстрации для удобства вид обеих таблиц показан рядом друг с другом, в файле Excel у меня они расположены на отдельных листах (ссылка на файл ниже).

15. Столбцы из сводных таблиц копируем в отдельные файлы, переименовываем (как указано на рисунке) и сохраняем в отдельные csv (nodes4gephi.csv и edges4gephi.csv – ссылка на получившиеся файлы ниже).

 

И последний рывок, возвращаемся в Gephi.

 

16. Создаем новую Рабочую область >> Таблица данных >> Узлы >> Импортировать из csv

 

Не забываем указать, что у нас неориентированный граф.

17. Переходим на вкладку Рёбра >> Импортировать из csv

 

На следующем шаге (внимательно!) обязательно выбрать Append to existing workspace.

 

18. В Gephi появляется граф с 423 узлами и 669 связями, укладываем его с помощью Geo Layout.

 

 

19. Добавляем украшения в разделе Apperance:

  • размер шарика привязываем к N(от 10 до 50)

  • цвет шарика тоже к N– от желтого до красного

В разделе «Просмотр»: 

  • убираем отображение меток узлов

  • добавляем черный фон

  • цвет связей – ручная настройка цвета («белый»)

 

20. Делаем экспорт в PNG(в настройках выбрать прозрачный фон)

 

– «И где же карта?», спросит терпеливый читатель, который как мужественный флорентиец прошел со мной мимо кипящей серы экселевского синтаксиса.

 

Подложка карты – дело вкуса. Одни исследователи рисуют перелеты на фоне ночной Земли, другие отмечают лесные пожары на зеленых массивов планеты, третьи предпочтут нейтральный серый фон, чтобы на нем разместить побольше цветовых различий. В сети Интернет несложно найти карту с проекцией Mercator на свой вкус, и положить на неё сверху точки и связи.

 

Да, вручную. Хорошо прицелившись. На глазок попав в Дели, Париж и Новосибирск. 

 

Ладно, я тоже устал всё это писать и поэтому шучу. Укладывать, действительно, придется «на глазок», но если на карте есть Рио-де-Жанейро, Ирландия, Майами, Лос-Анджелес, Япония, Новая Зеландия и Тайвань (а они есть почти всегда), то всё получится. Даже если не в Новосибирск, то в Академгородок попадете.

 

Как вы уже увидели, на карте у нас вылезла любимая точка всех картографов и, разумеется, центр коллабораций по всем мировым специальностям – {0,0}. Мы ведь забыли проверить, у всех ли организаций в GRID есть координаты, и оказывается, что не у всех. Удалить мы её, конечно же, можем в Gephi с помощью фильтра (по значению) или инструмента, который похож на кисть руки (недаром) и позволяет выделять, удалять и двигать любые узлы.

В финале построим карту внутриевропейских коллабораций.

 

22. Увеличиваем в Gephi зону Европы, выделяем узлы, переносим на новую Рабочую область (правый клик >> скопировать...), снова экспортируем в прозрачный PNG и накладываем на подложку.

 

 

 

Эта картина точно не выиграет приз за лучшую визуализацию, но кое-что у нас получилось. 

 

А если результат не нравится и хочется «просто чтоб страны подкрасились», то вы можете сделать поиск в Lens.org– в результатах поиска есть карта, без связей, но чтобы в доклад о важности своей работы вставить, вполне подойдет.

 

Резюмируем:   

  • основная проблема для визулизации научных коллабораций связана с аккуратностью данных об учреждениях. Без продвинутой чистки данных, творческого геокодинга и комбинирования информации из различных баз данных, связка {Dimensions+ GRID} – оптимальный выбор (если не единственный).

 

  • Gephi позволяет рисовать граф связей в нескольких географических проекциях (самая популярная – Mercator), которые можно накладывать на любые подложки. Улучшить результат можно объединяя точки (округляя координаты, например, до первого десятичного знака), выгружая в SVG и работая с графикой в специальных программах.

 

  • Инструменты для визуализации карт быстро эволюционируют, поэтому я не исключаю, что полученные нами данные можно легче и изящнее визуализировать в другой программе (даже без применения языков программирования).

 

Пакет файлов (сборка в Excel, итоговые узлы и ребра в CSV, а также файл проекта Gephi) доступен в архиве (zip, 11 Мб).

1451
0
22 Ноября, 2018
Ваш комментарий будет первым

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, пользовательских данных (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) в целях функционирования сайта, проведения ретаргетинга и проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.

x