Корзина (0)
В корзине пусто!
«Библиометрические инструменты в помощь исследователю». Ключевые слова. Часть третья: VOSviewer

«Библиометрические инструменты в помощь исследователю». Ключевые слова. Часть третья: VOSviewer

178
0
30 Октября, 2018
 
В предыдущих постах мы начали анализ научных тем, связанных с пептид-нуклеиновыми кислотами, и пришли к выводу, что анализ ключевых слов в интерфейсе Scopus для этой задачи не вполне удобен. Эту задачу мы будем решать с помощью программы VOSviewer.
 
Здесь сделаем небольшую, но значимую ремарку – мы не ставили перед собой задачу написать руководство по работе с программой, поэтому не каждый шаг будет сопровождаться соответствующим скриншотом или разъяснением. По этой же причине мы будем обсуждать не все возможности программы, а лишь те, которые нам могут помочь для решения конкретной задачи.
 
VOSviewer разработан сотрудниками Центра исследований науки и технологий (CWTS) Лейденского университета (https://www.cwts.nl). Программа позволяет работать с данными из разных источников (WoS, Scopus, Dimensions,CrossRef, Medline), регулярно обновляется, распространяется бесплатно и не требует инсталляции.
 
Скачиваем с сайта http://www.vosviewer.com/ подходящую версию, распаковываем архив и, собственно, всё.
 
Шаг 1. запускаем файл VOSviewer.exe
Шаг 2. нажимаем Create
Шаг3. выбираемCreate a map based on bibliographic data
 
 
 
Шаг 4. на вкладке Scopus указываем расположение файла CSV(см. предыдущий пост)
Шаг5. выбираем в соответствующих разделах Co-occurrence, All keywords, Full counting.
 
Возможность выбора между авторскими ключевыми словами и словарными терминами, как мы увидим позднее, является несомненным достоинством программы.
 
 
Шаг 6. Программа анализирует файл и предлагает ввести порог встречаемости ключевых слов для удаления из анализа совсем редких терминов. 
 
 
 
В нашем случае найдено 14006 ключевых слов – такое количество точек на экране сделает визуальную оценку невозможной. Попробуем ограничиться анализом только тех ключевых слов, которые встречаются минимум 7 раз, что сократит количество точек до 1341. Удаляя редкие термины, мы «снижаем уникальность» описания каждой публикации, или выражаясь фигурально, выбираем для микроскопа более слабые увеличительные стекла.
 
Шаг 7. Программа предложит сократить количество терминов, для которых будет проводиться расчет, до одной тысячи. Откажемся от этой автоматической настройки и выберем полное количество (1341).
 
Шаг 8. На последнем этапе VOSviewer предлагает в последний раз взглянуть на список терминов с возможностью отредактировать его вручную. Для нас это важный этап, поскольку он дает возможность удалить слишком общие термины – такие как humanhumanspriority journalarticlemalefemaleи т.д.. Удаляя малоинформативные термины, мы повышаем специфичность связей между публикациями, что должно оказывать положительный эффект на результат кластеризации.
 

 

 
 
Просматривая ключевые слова, мы можем заметить различные варианты написания одного и того же термина, например, human и humanspreschoolchild и childpreschoolretrospective study и retrospective studies. К сожалению, программа воспринимает их, как разные термины, что ухудшает результаты кластеризации. Именно для этой цели в VOSviewer предусмотрена возможность использования словаря (см. далее).
 
Шаг 9. Нажимаем Finish, ждем результат и любуемся получившейся картиной.
 

 

 
 
Программа по умолчанию выделила несколько крупных зон, в которых угадываются действительно разные направления исследований (красная и синяя зоны – диагностика и чипы, зеленая – регуляция экспрессии, желтая – клинические испытания).
 
Но вместе с этим, на картине по-прежнему видны общие и малоинформативные термины, которые вряд ли помогают разделению тем – например, термины adultmiddleageagedможно удалить, как и humanmalefemale(конечно, если мы уверены в том, что PNA не имеет различного использования в разных возрастно-половых группах). 
 
В эту же группу кандидатов на удаление можно отнести словарные термины –genemutationpeptidesaminoacidsoligomerpathologyи т.п., они описывают объект, а не способ его исследования или применения, тогда как нас интересует последнее.
 
Одним из неудобств системы VosViewerявляется невозможность редактирования списка узлов графа (в нашем случае это термины) on the fly, то есть прямо на экране, без повторной загрузки. Если мы решили удалить или объединить несколько узлов (например, синонимов), нам потребуется пройти все этапы загрузки файла с самого начала. Однако, это неудобство не следует воспринимать как недостаток программы, потому что ручная коррекция узлов графа – это верный путь к получению результатов, которые потом невозможно воспроизвести. Мы вернемся к вопросу, как следует вносить изменения, когда будем рассматривать работу с тезаурусом.
 
Попробуем теперь взглянуть на «лексическое пространство» исследований PNA, взяв только авторские ключевые слова (Author Keywords) и установив порог в минимум 3 упоминания (328 слов). Поскольку издатели обычно ограничивают количество ключевых слов, которые автор может указывать при подаче статьи, последние стремятся использовать действительно специфические термины.
 

 

 
 
Действительно, программа выделяет больше кластеров, которые мы отобразили, используя для удобства Lin-Log укладку (меню Analysis). 
 
Однако, проблема в том, что авторы используют похожие ключевые слова с вариациями в написании, поэтому на графе можно заметить группы терминов, которые обозначают одно и то же, но попали в разные кластеры (например, biosensorи bisensorsmiRNAи microRNA и т.п.). Если мы объединим такие пары, то и разбиение на группы будет выглядеть иначе. 
 
Прежде чем приступить к работе с тезаурусом, познакомимся с данными, которые VOSviewer позволяет выгружать. Кроме само собой разумеющихся иллюстраций в разнообразных форматах (включая векторные EPS, SVG), VOSviewer позволяет сохранять файлы данных, которые можно затем использовать для обработки в других программах (меню Save).  Это форматы GML(может быть прочитан в Gephi), Pajek (одноименный софт) и текстовые файлы VOSviewer map и VOSviewer network file.
 
Рассмотрим подробнее содержимое двух последних файлов: 
 
VOSviewer map file
 
Файл содержит данные об узлах сети (в нашем случае это термины): 
  • Id – идентификатор
  • Label – метка 
  • Cluster– номер кластера
  • weight<Links> – количество терминов, вместе с которыми упоминался данный термин
  • weight<Occurrences> – количество статей, в которых упоминался данный термин
  • score<Avg. pub. year> – среднее значение года публикаций 
  • score<Avg. citations> – среднее количество цитирований
  • score<Avg. norm. citations> – среднее количество цитирований, нормализованное с учетом возраста статей.
VOSviewer network file
 
Файл содержит данные о связях между узлами (терминами): первые два столбца относятся к идентификаторам (Id) узлов, в третьем столбце приводится сила связей (которая пропорциональна их количеству).
 
Таким образом, для тех, кто не владеет навыками программирования, VOSviewer представляет удобнейший сервис для быстрой обработки данных из индексов научного цитирования и реферативных баз, и отражения существующих связей в формате, используемом для анализа сетевых структур. 
 
Работа с тезаурусом
 
В роли тезауруса VOSviewer использует обычный текстовый файл (.txt) с двумя столбцами – label(термин, который следует заменить) и replace by(термин для замены), разделенных табуляцией.
 
Для создания его удобно воспользоваться файлом VOSviewer map file, который уже содержит столбец label. Таким образом, нам остается только скопировать этот столбец, выбрать термины, которые следует заменить, добавить рядом второй столбец с названием replace by и заполнить последний вариантами замены.
 
Это ручной труд, но ориентируясь на столбец Weight<Occurences>, исследователь может ограничиться модификацией лишь наиболее крупных узлов (часто встречающихся терминов), которые оказывают более сильное влияние на разделение кластеров.
 

 

 
 
Редакцию тезауруса удобно проводить в программе Excel, поскольку можно будет с помощью фильтра находить варианты однокоренных терминов. В нашем случае, составление тезауруса с вариантами замены для приблизительно 150 терминов заняло 22 минуты.
 
Загружаем заново файл с данными, указываем VOSviewer на файл тезауруса, сохраняем минимальный порог в 3 упоминания, и видим, что программа обнаруживает уже не 328, а 232 термина – благодаря работе с тезаурусом мы не только унифицировали термины (что окажет положительный эффект на кластеризацию), но и на четверть уменьшили их количество терминов, сделав граф более удобным для визуального прочтения. 
 
Взглянем на результат.
 
 
Направления использования пептид-нуклеиновых кислот видны ещё более отчетливо, хотя говорить о качественном выделении отдельных направлений, безусловно, не приходится.
 
Упорные исследователи могут продолжить работать с тезаурусом и попробовать изменять параметры (можно увеличить Resolutionс 1 до 1.5 - 3), что должно привести к лучшему разделению тем. Любители чтения, вероятно, уже пришли к выводу, что потраченное время лучше было бы пустить на чтение обзоров, а результаты всегда можно представить в виде текста или таблицы.
 
К сожалению, приходится признать, что анализ ключевых слов с целью выделения индивидуальных тем – занятие трудоемкое и малоблагодарное, поэтому в следующих постах мы попробуем несколько иной подход.
178
0
30 Октября, 2018
Ваш комментарий будет первым

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, пользовательских данных (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) в целях функционирования сайта, проведения ретаргетинга и проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.

x