Анализ цитирования

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Анализ цитирования — это изучение частоты, шаблонов и графиков цитат в документах. Он использует шаблон цитат, ссылки с одного документа на другой документ, чтобы обнаружить свойства документов. Типичной целью является определение наиболее важных документов в сборнике. Классический пример — цитата между академическими статьями и книгами.[1][2] Судебные решения в англосаксонской правовой системе с целью подтверждения своих решений, ссылаются на решения, вынесенные в предыдущих делах, поэтому анализ цитирования в юридическом контексте является важным. Другим примером являются патенты, содержащие предыдущие изобретения, цитируемые ранее патенты, касающиеся текущей претензии.

Документы могут быть связаны со многими другими особенностями кроме цитат, такими как авторы, издатели, журналы, а также их фактические тексты. Общий анализ сборников документов называется библиометрией, а анализ цитирования — ключевая часть этого направления. Например, библиографическая связь и совместное применение являются ассоциированными метриками, основанными на анализе цитирования (общие цитаты или общие ссылки). Цитаты в сборнике документов также могут быть представлены в виде следующих графиков цитирования, как отметил Дерек де Солла Прайс в статье 1965 года «Сети научных трудов».[3] Это означает, что анализ цитирования опирается на аспекты анализа социальных сетей и науки о сетях.

Ранним примером автоматической индексации цитат был CiteSeer, который использовался для цитирования в научных докладах, а Google Scholar является примером современной системы, которая включает в себя больше, чем просто академические книги и статьи, и отражает более широкий круг информационных источников. Сегодня автоматизированная индексация цитирования[4] изменила характер исследования анализа цитирования, позволяя проанализировать миллионы цитат для широкомасштабных моделей и открытия знаний. Инструменты анализа цитирования могут быть использованы учёными для вычисления различных степеней воздействия на основе данных индексов цитирования.[5][6][7] Они имеют разнообразные приложения, начиная от идентификации экспертных судей для рассмотрения документов и предложений по предоставлению грантов, для предоставления прозрачных данных в поддержку решений об оценке академических преимуществ, пребывания в должности и принятия решений. Этот конкурс на ограниченные ресурсы может привести к этически сомнительному поведению для увеличения цитат.[8][9]

Практика наивного использования анализа цитирования для сравнения влияния различных научных статей без учёта других факторов, которые могут влиять на модели цитирования, была сильно раскритикована.[10] Среди критических замечаний одно постоянно фокусируется на «независимости от отрасли», а именно на том факте, что практика цитирования в одной области науки отличается от практики в другой и даже между отраслями исследований в рамках дисциплины.[11]

Обзор[править | править код]

Хотя индексы цитирования изначально были разработаны для поиска информации, они все чаще используются для библиометрических и других исследований, включающих оценку исследований. Данные цитирования также является основой коэффициента влиятельности популярного журнала.

Существует большое количество литературы по анализу цитирования, которая иногда называется наукометрией, термином, предложенным Василием Налимовым, или, в частности, библиометрией. Отрасль начала расцветать с появлением Science Citation Index, который охватывает литературу, изданную с 1900 года. Ведущие журналы отрасли — это Наукометрия, Информатика, а также Journal of the Association for Information Science and Technology. Последний также организует электронный список рассылки под названием Сигметрика в АТІТ.[12] Этот метод возрождается на основе широкого распространения баз данных, подписки на Web Science и Scopus во многих университетах и общедоступных инструментах свободного цитирования, таких как CiteBase, CiteSeerX, Google Scholar и прежней программы Windows Live Academic (теперь доступна с дополнительными функциями, такими как Microsoft Academic Search). Методы исследования анализа цитирования включают качественные, количественные и вычислительные подходы. Основными очагами таких наукометрических исследований были сравнительный анализ производительности, рейтинги институциональных исследований, классификация журналов[13] относительно установления факторов производительности и стандартов владения,[14] оценка влияния высших научных статей,[15] отслеживание траектории развития науки или технологической отрасли[16] и разработка профилей ведущих авторов и учреждений с точки зрения результатов исследований.[17]

Анализ юридического цитирования — это метод анализа цитат для анализа правовых документов, что позволяет облегчить понимание связанных между собой нормативных документов путем изучения цитат, которые связывают положение с другими положениями в одном документе или между разными документами. Анализ правового цитирования использует график цитирования, взятый из нормативного документа, который может дополнить электронное открытие — процесс, который влияет на технологические нововведения в аналитике больших данных.[18][19][20][21]

История[править | править код]

В документе 1965 года Дерек де Солла Прайс описывал присущее свойство связывания SCI как «сети научных статей». Связи между цитированием и цитируемыми статьями стали динамическими, когда SCI начал публиковаться в Интернете. Индекс цитирования социальных наук стал одной из первых баз данных, установленных в системе Dialog[22] в 1972 году. С появлением компакт-дисков ссылки стали ещё проще, что позволило использовать библиографические связи для поиска соответствующих записей. В 1973 году Генри Смолл опубликовал свою классическую работу по анализу социтирования, ставшей самоорганизованной классификационной системой, приведшей к экспериментам с кластеризацией документов и со временем к «Atlas of Science», который позже стал называться «Research Reviews».

Присущ топологический и графический характер всемирной сети цитирования, который является свойственным научной литературебыл описан Ральфом Гарнером (Университет Дрекселя) в 1965 году.[23]

Использование оценок цитат в ранговых журналах было методом, обычным в первой половине XIX века, но систематическое постоянное измерение этих подсчётов для научных журналов было инициировано Евгением Гарфилдом в Институте научной информации, который также стал первоисточником для использования этих подсчётов для оценки авторов и статей. В знаковом документе 1965 года он и Ирвинг Шер показали соотношение между частотой и ростом цитирования, демонстрируя, что лауреаты Нобелевской премии в среднем публиковали свои статьи пять раз, тогда как их работы цитировались в среднем 30-50 раз. Гарфилд сообщил об этом явлении в длинной серии эссе о Нобелевской и других премиях. Обычная итоговая оценка известна как коэффициент влиятельности, количество цитат в журнале за предыдущие два года, поделенное на количество статей, опубликованных за эти годы. Она широко используется как для обычных, так и для специальных целей, в частности, применение её для оценки авторов и документов является достаточно противоречивым.

В раннем исследовании 1964 года с использованием анализа цитирования при написании истории ДНК Гарфилд и Шер продемонстрировали потенциал для создания историографии, топологических карт важнейших шагов в истории научных тем. Эта работа была позже автоматизирована Е. Гарфилдом, А. И. Пудовкиным из Института морской биологии НАН и В. С. Истоминым из Центра преподавания, обучения и технологий, Вашингтонского государственного университета и привела к созданию программного обеспечения Histcite[24] к 2002 году.

Автоматическое индексирование цитирования было введено в 1998 году Ли Джайлсом, Стивом Лоуренсом и Куртом Боллакером и позволило автоматически алгоритмически удалять и группировать цитаты для любого цифрового академического и научного документа. Если предварительное изъятие цитат было ручным процессом, степени цитирования теперь могут увеличиваться и вычисляться для любых научных отраслей и мест проведения документов, а не только тех, что выделяются такими организациями, как ISI. Это привело к созданию новых систем для индексации публичной и автоматической цитат, первая из которых была CiteSeer (теперь CiteSeerX, вскоре наследуемая системой Cora, которая сосредоточивалась в первую очередь в области компьютерных наук и информатики. Позже были созданы крупные академические системы доменных имен, такие как Google Scholar и Microsoft Academic. Такая автономная индексация цитирования ещё не была совершенной в процессе извлечения цитат или цитирование с кластеризацією с частотой ошибок, которая оценивается где-то на уровне 10 %, хотя тщательная статистическая выборка ещё не сделана. Такие авторы, как Энн Арбор, Милтон Кейнс и Уолтон Холл получили огромное количество академических результатов.[25] SCI утверждает, что создает автоматическое индексирование цитирования через чисто программные методы. Даже старшие записи имеют одинаковую погрешность.

Анализ цитирования для юридических документов[править | править код]

Анализ цитат для юридических документов — это подход, который помогает понять и проанализировать взаимосвязанные нормативные документы, путем изучения цитат, которые связывают положение с другими положениями в рамках одного документа и между различными документами. Анализ цитирования использует граф цитирования, полученный из нормативного документа, который мог бы дополнить электронное открытие — процесс, который влияет на технологические нововведения в аналитике больших данных.[26]

Критика[править | править код]

Электронные издания. Вследствие беспрецедентного увеличения доступности электронных ресурсов, одним из острых вопросов, которые сейчас изучаются, стал вопрос «как часто в Интернете цитируются электронные ресурсы в моей отрасли?».[27] Например, утверждается, что онлайн-доступ к литературе по информатике приводит к повышению коэффициентов цитирования,[28] однако гуманитарные статьи могут пострадать, если их не существует в печатном виде.

Само-цитирование. Большой критике подвергается практика авторов «играть» с системой путём накопления цитат, чрезмерно цитируя себя[29]. При этом, например, было установлено, что мужчины цитируют себя чаще, чем женщины.

См. также[править | править код]

Примечания[править | править код]

  1. Rubin, Richard. Foundations of library and information science (англ.). — 3rd. — New York: Neal-Schuman Publishers, 2010. — ISBN 978-1-55570-690-6.
  2. Garfield, E. Citation Indexing — Its Theory and Application in Science, Technology and Humanities Philadelphia: ISI Press, 1983. Дата обращения: 29 августа 2018. Архивировано 9 марта 2018 года.
  3. Derek J. de Solla Price. Networks of Scientific Papers (англ.) // Science : journal. — 1965. — 30 July (vol. 149, no. 3683). — P. 510—515. — doi:10.1126/science.149.3683.510. — Bibcode1965Sci...149..510D. — PMID 14325149. Архивировано 20 мая 2019 года.
  4. Giles, C. Lee; Bollacker, Kurt D.; Lawrence, Steve (1998), "CiteSeer: an automatic citation indexing system.", Digital libraries 98 : the Third ACM Conference on Digital Libraries, June 23–26, 1998, Pittsburgh, PA, New York: Association for Computing Machinery: 89—98, doi:10.1145/276675.276685, ISBN 0-89791-965-3, Дата обращения: 7 июля 2011 {{citation}}: Указан более чем один параметр |DOI= and |doi= (справка); Указан более чем один параметр |ISBN= and |isbn= (справка)
  5. Examples include subscription-based tools based on proprietary data, such as Web of Science and Scopus, and free tools based on open data, such as Scholarometer Архивная копия от 18 апреля 2022 на Wayback Machine by Filippo Menczer and his team.
  6. Kaur, Jasleen. Scholarometer: A Social Framework for Analyzing Impact across Disciplines (англ.) // PLoS ONE : journal. — 2012. — Vol. 7, no. 9. — doi:10.1371/journal.pone.0043235. — Bibcode2012PLoSO...743235K. — PMID 22984414. Архивировано 4 мая 2014 года.
  7. Hoang, D.; Kaur, J.; Menczer, F. (2010), "Crowdsourcing Scholarly Data", Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, April 26-27th, 2010, Raleigh, NC: US, Архивировано из оригинала 17 апреля 2015, Дата обращения: 29 августа 2018 Источник. Дата обращения: 29 августа 2018. Архивировано из оригинала 17 апреля 2015 года.
  8. Anderson, M.S. van. The perverse effects of competition on scientists’ work and relationship (англ.) // Science and Engineering Ethics  (англ.) : journal. — 2007. — Vol. 4, no. 13. — P. 437—461. — doi:10.1007/s11948-007-9042-5.
  9. Wesel, M. van. Evaluation by Citation: Trends in Publication Behavior, Evaluation Criteria, and the Strive for High Impact Publications (англ.) // Science and Engineering Ethics  (англ.) : journal. — 2016. — Vol. 22, no. 1. — P. 199—225. — doi:10.1007/s11948-015-9638-0. — PMID 25742806.
  10. What do citation counts measure? A review of studies on citing behavior (англ.) // Journal of Documentation  (англ.) : journal. — 2008. — Vol. 64, no. 1. — P. 45—80. — doi:10.1108/00220410810844150.
  11. Anauati, Maria Victoria and Galiani, Sebastian and Gálvez, Ramiro H., Quantifying the Life Cycle of Scholarly Articles Across Fields of Economic Research (November 11, 2014). Available at SSRN: http://ssrn.com/abstract=2523078 Архивировано 17 ноября 2014 года.
  12. The American Society for Information Science & Technology. The Information Society for the Information Age. Дата обращения: 21 мая 2006. Архивировано из оригинала 3 октября 2019 года.
  13. Lowry, Paul Benjamin; Moody, Gregory D.; Gaskin, James; Galletta, Dennis F.; Humpherys, Sean; Barlow, Jordan B.; and Wilson, David W. (2013). "Evaluating journal quality and the Association for Information Systems (AIS) Senior Scholars’ journal basket via bibliometric measures: Do expert journal assessments add value? Архивная копия от 21 марта 2019 на Wayback Machine, MIS Quarterly (MISQ), vol. 37(4), 993—1012. Also, see YouTube video narrative of this paper at: https://www.youtube.com/watch?v=LZQIDkA-ke0&feature=youtu.be Архивная копия от 21 марта 2019 на Wayback Machine.
  14. Dean, Douglas L; Lowry, Paul Benjamin; and Humpherys, Sean (2011). Profiling the research productivity of tenured information systems faculty at U.S. institutions Архивная копия от 9 января 2016 на Wayback Machine, MIS Quarterly (MISQ), vol. 35(1), pp. 1-15 (ISSN 0276-7783).
  15. Karuga, Gilbert G.; Lowry, Paul Benjamin; and Richardson, Vernon J. (2007).Assessing the impact of premier information systems research over time, Communications of the Association for Information Systems, vol. 19(7), pp. 115—131 (http://aisel.aisnet.org/cais/vol19/iss1/7) Архивная копия от 25 января 2016 на Wayback Machine
  16. Liu, John S. An integrated approach for main path analysis: Development of the Hirsch index as an example (англ.) // Journal of the American Society for Information Science and Technology  (англ.) : journal. — 2012. — 1 March (vol. 63, no. 3). — P. 528—542. — ISSN 1532-2890. — doi:10.1002/asi.21692. Архивировано 5 января 2018 года.
  17. Lowry, Paul Benjamin; Karuga, Gilbert G.; and Richardson, Vernon J. (2007). Assessing leading institutions, faculty, and articles in premier information systems research journals, Communications of the Association for Information Systems, vol. 20(16), pp. 142—203 (http://aisel.aisnet.org/cais/vol20/iss1/16). Архивная копия от 9 января 2016 на Wayback Machine
  18. http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=5070630&tag=1  (недоступная ссылка с 29-08-2018 [2069 дней])
  19. Mohammad Hamdaqa and A. Hamou-Lhadj, «Citation Analysis: An Approach for Facilitating the Understanding and the Analysis of Regulatory Compliance Documents», In Proc. of the 6th International Conference on Information Technology, Las Vegas, USA
  20. E-Discovery Special Report: The Rising Tide of Nonlinear Review. Hudson Global. Дата обращения: 1 июля 2012. Архивировано 3 июля 2012 года. by Cat Casey and Alejandra Perez
  21. What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology - Re-Humanizing Technology-Assisted Review. Forbes. Дата обращения: 1 июля 2012. Архивировано 18 июня 2012 года.
  22. Dialog, A Thomson Business. "Dialog invented online information services". Дата обращения: 21 мая 2006. Архивировано 13 января 2004 года.
  23. Архивированная копия. Дата обращения: 29 августа 2018. Архивировано 9 сентября 2017 года.
  24. Eugene Garfield Algorithmic Citation-Linked Historiography—Mapping the Literature of Science. Presented the ASIS&T 2002: Information, Connections and Community. 65th Annual Meeting of ASIST in Philadelphia, PA. November 18–21, 2002 (2002). Дата обращения: 21 мая 2006. Архивировано 20 октября 2016 года.
  25. Postellon D. C. Hall and Keynes join Arbor in the citation indexes (англ.) // Nature : journal. — 2008. — March (vol. 452, no. 7185). — doi:10.1038/452282b. — Bibcode2008Natur.452..282P. — PMID 18354457.
  26. Hamdaqa, M.; A Hamou-Lhadj. Citation Analysis: An Approach for Facilitating the Understanding and the Analysis of Regulatory Compliance Documents (англ.). — Las Vegas, NV: Institute of Electrical and Electronics Engineers, 2009. — P. 278—283. — ISBN 978-1-4244-3770-2. — doi:10.1109/ITNG.2009.161. Архивировано 14 июля 2014 года.
  27. Zhao, Lisa. «How Librarian Used E-Resources--An Analysis of Citations in CCQ.» Cataloging & Classification Quarterly 42(1) (2006): 117—131.
  28. Lawrence, Steve. Free online availability substantially increases a paper’s impact. Nature volume 411 (number 6837) (2001): 521. Also online at http://citeseer.ist.psu.edu/online-nature01/ Архивная копия от 9 июня 2010 на Wayback Machine
  29. Gálvez R. H. Assessing author self-citation as a mechanism of relevant knowledge diffusion (англ.) // Scientometrics : journal. — 2017. — March (vol. 111, no. 3). — P. 1801. — doi:10.1007/s11192-017-2330-1.