habrahabr

Сколько научных статей в интернете?

  • воскресенье, 12 октября 2014 г. в 03:11:00
http://habrahabr.ru/post/240049/

Профессор Ли Джайлс (Lee Giles) из колледжа информационных технологий при университете штата Пенсильвания значительную часть карьеры посвятил разработке поисковых систем по научным статьям, чтобы у академического сообщества был удобный доступ к материалам.

Недавно профессор опубликовал первое в своём роде исследование, в котором оценивает количество доступных научных статей в интернете. Работа "The Number of Scholarly Documents on the Public Web" опубликована в майском номере журнала PLoS ONE и цитируется в Nature.

В работе учтены только англоязычные документы, с учётом перекрытия в двух крупнейших специализированных поисковиках: Google Scholar и Microsoft Academic Search. Под научными документами подразумеваются публикации в журналах и доклады с конференций, диссертации и дипломные работы, книги, технические отчёты и рабочие документы (предварительные версии научных статей).

Статистические методы показали, что через интернет доступно как минимум 114 млн научных документов на английском языке, из них через Google Scholar доступно около 100 млн. Как минимум 27 млн документов (24%) лежат в открытом доступе.



Авторы адаптировали в своей работе метод двойного охвата, который обычно используется в экологии для оценки размера популяций животных. Там он предполагает отлов некоторого количества животных, которых помечают и отпускают на волю. Затем осуществляется повторный отлов в том же районе. Учёные оценивают процент окольцованных животных во второй выборке — и делают примерную оценку общего размера популяции по простой формуле.

Исследование Джайлса имеет и практический смысл для него как разработчика. Ещё в 1997 году он с коллегами выпустил открытую поисковую систему CiteSeer по научным документам, преимущественно, из области информатики. При этом поисковик учитывал цитаты и ссылки в документах, чтобы построить индекс с учётом ранжирования. Считается, что это первая автоматическая система индексирования цитат, предшественник таких инструментов как Google Scholar и Microsoft Academic Search.

В 2008 году вышла новая версия CiteSeerX, в которой тематику расширили на физику, экономику, медицину и другие научные отрасли. Джайлс пытается оценить, какая инфраструктура нужна для индексации документов в каждой отрасли.



Джайлс подчёркивает тот факт, что 24% всех документов свободно доступны в Сети, в виде прямых ссылок на документы через Google Scholar (в информатике процент свободно доступных документов 50%). Профессор также отмечает, что документы в открытом доступе чаще цитируются и имеют больший вес.