Сессия (веб-аналитика): различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Строка 9: Строка 9:
Веб-аналитики изучают сессии для получения необходимой информации о сайте, и важную роль здесь играет возможность идентификации сессий. Возможность реконструировать сессию пользователя также называют «восстановлением сеанса». Подходы к реконструкции сессии можно разделить на две основные категории: ориентированные на время и ориентированные на навигацию.<ref>{{Статья|автор=Spiliopoulou, Myra; Mobasher, Bamshad; Berendt, Bettina; Nakagawa, Miki|заглавие=A framework for the evaluation of session reconstruction heuristics in web-usage analysis|ссылка=|язык=|издание=INFORMS Journal on Computing|тип=|год=2003|месяц=|число=|том=|номер=15 (2)|страницы=171–190|issn=1526-5528|doi=10.1287/ijoc.15.2.171.14445}}</ref> Ориентированные на время подходы показывают определенный период неактивности пользователя, который называют «порогом неактивности». И когда наступает бездействие пользователя, предполагается, что он покинул сайт или полностью прекратил использование браузера, и сессия завершилась. Дальнейшие запросы от того же пользователя считаются вторым сеансом. Общее значение для порога неактивности составляет 30 минут.<ref>{{Статья|автор=Ortega, J.L.; Aguillo, I.|заглавие=Differences Between Web Sessions According to the Origin of their Visits|ссылка=|язык=|издание=Journal of Informetrics|тип=|год=2010|месяц=|число=|том=|номер=4 (3)|страницы=331–337|issn=1751-157|doi=10.1016/j.joi.2010.02.001}}</ref><ref>{{Книга|автор=Eickhoff, Carsten; Teevan, Jaime; White, Ryen; Dumais, Susan|заглавие=Lessons from the Journey: A Query Log Analysis of Within-Session Learning|ответственный=|издание=Proceedings of the Seventh International Conference on Web Search and Web Data Mining|место=|издательство=ACM|год=2014|страницы=223–232|страниц=|isbn=9781450323512|isbn2=|doi=10.1145/2556195.2556217}}</ref> Некоторые утверждают, что период сессии в 30 минут создает артефакты вокруг естественно длинных сеансов и экспериментируют с другими периодами.<ref name=":1">{{Статья|автор=Mehrzadi, David; Feitelson, Dror G.|заглавие=On Extracting Session Data from Activity Logs|ссылка=https://www.cse.huji.ac.il/~feit/papers/Ses12SYSTOR.pdf|язык=|издание=SYSTOR '12. ACM|тип=|год=2012|месяц=|число=|том=|номер=|страницы=|issn=978-1-4503-1448-0|doi=10.1145/2367589.2367592}}</ref><ref>{{Статья|автор=He, Daqing; Goker, Ayse; Harper, David J.|заглавие=Combining evidence for automatic Web session identification|ссылка=|язык=|издание=Information Processing and Management|тип=|год=2002|месяц=|число=|том=|номер=38 (5)|страницы=727–742|issn=0306-4573|doi=10.1016/S0306-4573(01)00060-7}}</ref> Другие считают: «нет временного порога, эффективного при выявлении сессий».<ref>{{Книга|автор=Jones, Rosie; Klinkner, Kristina Lisa|заглавие=Beyond the Session Timeout: Automatic Hierarchical Segmentation of Search Topics in Query Logs doi|ответственный=|издание=ACM|место=|издательство=|год=2008|страницы=|страниц=699|isbn=9781595939913|isbn2=|doi=10.1145/1458082.1458176}}</ref> Есть альтернатива "порогу неактивности" в 30 мин, которая заключается в использовании пользовательских периодов пребывания на сайте, а не единого порога для всего набора данных.<ref>{{Статья|автор=Murray, G. Craig; Lin, Jimmy; Chowdhury, Abdur|заглавие=Identification of User Sessions with Hierarchical Agglomerative Clustering|ссылка=http://users.umiacs.umd.edu/~jimmylin/publications/Murray_etal_ASIST2006.pdf|язык=|издание=Proceedings of the American Society for Information Science and Technology|тип=|год=2006|месяц=|число=|том=|номер=43 (1)|страницы=1–9|issn=|doi=10.1002/meet.14504301312}}</ref><ref>{{Статья|автор=Mehrzadi, David; Feitelson, Dror G.|заглавие=On Extracting Session Data from Activity Logs (PDF)|ссылка=https://www.cse.huji.ac.il/~feit/papers/Ses12SYSTOR.pdf|язык=|издание=SYSTOR '12. ACM.|тип=|год=2012|месяц=|число=|том=|номер=|страницы=|issn=|doi=10.1145/2367589.2367592|isbn=978-1-4503-1448-0}}</ref> В этом подходе возникает проблема предположения, что пороги следуют бимодальному распределению, поэтому он не подходит для анализа данных, охватывающих длительный период времени.<ref name=":1" />
Веб-аналитики изучают сессии для получения необходимой информации о сайте, и важную роль здесь играет возможность идентификации сессий. Возможность реконструировать сессию пользователя также называют «восстановлением сеанса». Подходы к реконструкции сессии можно разделить на две основные категории: ориентированные на время и ориентированные на навигацию.<ref>{{Статья|автор=Spiliopoulou, Myra; Mobasher, Bamshad; Berendt, Bettina; Nakagawa, Miki|заглавие=A framework for the evaluation of session reconstruction heuristics in web-usage analysis|ссылка=|язык=|издание=INFORMS Journal on Computing|тип=|год=2003|месяц=|число=|том=|номер=15 (2)|страницы=171–190|issn=1526-5528|doi=10.1287/ijoc.15.2.171.14445}}</ref> Ориентированные на время подходы показывают определенный период неактивности пользователя, который называют «порогом неактивности». И когда наступает бездействие пользователя, предполагается, что он покинул сайт или полностью прекратил использование браузера, и сессия завершилась. Дальнейшие запросы от того же пользователя считаются вторым сеансом. Общее значение для порога неактивности составляет 30 минут.<ref>{{Статья|автор=Ortega, J.L.; Aguillo, I.|заглавие=Differences Between Web Sessions According to the Origin of their Visits|ссылка=|язык=|издание=Journal of Informetrics|тип=|год=2010|месяц=|число=|том=|номер=4 (3)|страницы=331–337|issn=1751-157|doi=10.1016/j.joi.2010.02.001}}</ref><ref>{{Книга|автор=Eickhoff, Carsten; Teevan, Jaime; White, Ryen; Dumais, Susan|заглавие=Lessons from the Journey: A Query Log Analysis of Within-Session Learning|ответственный=|издание=Proceedings of the Seventh International Conference on Web Search and Web Data Mining|место=|издательство=ACM|год=2014|страницы=223–232|страниц=|isbn=9781450323512|isbn2=|doi=10.1145/2556195.2556217}}</ref> Некоторые утверждают, что период сессии в 30 минут создает артефакты вокруг естественно длинных сеансов и экспериментируют с другими периодами.<ref name=":1">{{Статья|автор=Mehrzadi, David; Feitelson, Dror G.|заглавие=On Extracting Session Data from Activity Logs|ссылка=https://www.cse.huji.ac.il/~feit/papers/Ses12SYSTOR.pdf|язык=|издание=SYSTOR '12. ACM|тип=|год=2012|месяц=|число=|том=|номер=|страницы=|issn=978-1-4503-1448-0|doi=10.1145/2367589.2367592}}</ref><ref>{{Статья|автор=He, Daqing; Goker, Ayse; Harper, David J.|заглавие=Combining evidence for automatic Web session identification|ссылка=|язык=|издание=Information Processing and Management|тип=|год=2002|месяц=|число=|том=|номер=38 (5)|страницы=727–742|issn=0306-4573|doi=10.1016/S0306-4573(01)00060-7}}</ref> Другие считают: «нет временного порога, эффективного при выявлении сессий».<ref>{{Книга|автор=Jones, Rosie; Klinkner, Kristina Lisa|заглавие=Beyond the Session Timeout: Automatic Hierarchical Segmentation of Search Topics in Query Logs doi|ответственный=|издание=ACM|место=|издательство=|год=2008|страницы=|страниц=699|isbn=9781595939913|isbn2=|doi=10.1145/1458082.1458176}}</ref> Есть альтернатива "порогу неактивности" в 30 мин, которая заключается в использовании пользовательских периодов пребывания на сайте, а не единого порога для всего набора данных.<ref>{{Статья|автор=Murray, G. Craig; Lin, Jimmy; Chowdhury, Abdur|заглавие=Identification of User Sessions with Hierarchical Agglomerative Clustering|ссылка=http://users.umiacs.umd.edu/~jimmylin/publications/Murray_etal_ASIST2006.pdf|язык=|издание=Proceedings of the American Society for Information Science and Technology|тип=|год=2006|месяц=|число=|том=|номер=43 (1)|страницы=1–9|issn=|doi=10.1002/meet.14504301312}}</ref><ref>{{Статья|автор=Mehrzadi, David; Feitelson, Dror G.|заглавие=On Extracting Session Data from Activity Logs (PDF)|ссылка=https://www.cse.huji.ac.il/~feit/papers/Ses12SYSTOR.pdf|язык=|издание=SYSTOR '12. ACM.|тип=|год=2012|месяц=|число=|том=|номер=|страницы=|issn=|doi=10.1145/2367589.2367592|isbn=978-1-4503-1448-0}}</ref> В этом подходе возникает проблема предположения, что пороги следуют бимодальному распределению, поэтому он не подходит для анализа данных, охватывающих длительный период времени.<ref name=":1" />


Второй подход, который используют для изучения пользовательской сессии — это подход, ''ориентированный на навигацию''. В этому случае аналитики используют структуру веб-сайтов, в частности, наличие гиперссылок и склонность пользователей переходить между страницами одного и того же веб-сайта, нажимая на них, а не вводить полный URL-адрес в своем браузере.<ref>{{Статья|автор=Spiliopoulou, Myra; Mobasher, Bamshad; Berendt, Bettina; Nakagawa, Miki|заглавие=A framework for the evaluation of session reconstruction heuristics in web-usage analysis|ссылка=|язык=|издание=INFORMS Journal on Computing|тип=|год=2003|месяц=|число=|том=|номер=15 (2)|страницы=171–190|issn=1526-5528|doi=10.1287/ijoc.15.2.171.14445|isbn=}}</ref> Один из способов идентификации сессий по этим данным состоит в том, чтобы создать карту веб-сайта: если можно определить первую страницу захода, сессия продолжается до тех пор, пока они не окажутся на странице, к которой нельзя получить доступ ни с одной ранее просмотренной страницы. При этом учитывается обратное отслеживание, при котором пользователь будет пересматривать свои шаги перед открытием новой страницы.<ref>{{Статья|автор=Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep|заглавие=Data Preparation for Mining World Wide Web Browsing Patterns|ссылка=|язык=|издание=Knowledge and Information Systems|тип=|год=1999|месяц=|число=|том=|номер=1 (1)|страницы=19|issn=0219-3116|doi=10.1007/BF03325089}}</ref> Более простой вариант, который не учитывает обратное отслеживание, когда HTTP-реферер каждого запроса является страницей, которая уже находилась в сессии.<ref>{{Статья|автор=Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep|заглавие=Data Preparation for Mining World Wide Web Browsing Patterns (PDF)|ссылка=|язык=|издание=Knowledge and Information Systems|тип=|год=1999|месяц=1 (1)|число=|том=|номер=|страницы=5–32|issn=0219-3116|CiteSeerX=10.1.1.33.2792|doi=10.1007/BF03325089}}</ref> Если это не так, сессия считается как новая. Этот метод "демонстрирует очень низкую производительность" на сайтах, которые содержат наборы фреймов.
Второй подход, который используют для изучения пользовательской сессии — это подход, ''ориентированный на навигацию''. В этому случае аналитики используют структуру веб-сайтов, в частности, наличие гиперссылок и склонность пользователей переходить между страницами одного и того же веб-сайта, нажимая на них, а не вводить полный URL-адрес в своем браузере.<ref>{{Статья|автор=Spiliopoulou, Myra; Mobasher, Bamshad; Berendt, Bettina; Nakagawa, Miki|заглавие=A framework for the evaluation of session reconstruction heuristics in web-usage analysis|ссылка=|язык=|издание=INFORMS Journal on Computing|тип=|год=2003|месяц=|число=|том=|номер=15 (2)|страницы=171–190|issn=1526-5528|doi=10.1287/ijoc.15.2.171.14445|isbn=}}</ref> Один из способов идентификации сессий по этим данным состоит в том, чтобы создать карту веб-сайта: если можно определить первую страницу захода, сессия продолжается до тех пор, пока они не окажутся на странице, к которой нельзя получить доступ ни с одной ранее просмотренной страницы. При этом учитывается обратное отслеживание, при котором пользователь будет пересматривать свои шаги перед открытием новой страницы.<ref>{{Статья|автор=Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep|заглавие=Data Preparation for Mining World Wide Web Browsing Patterns|ссылка=|язык=|издание=Knowledge and Information Systems|тип=|год=1999|месяц=|число=|том=|номер=1 (1)|страницы=19|issn=0219-3116|doi=10.1007/BF03325089}}</ref> Более простой вариант, который не учитывает обратное отслеживание, когда HTTP-реферер каждого запроса является страницей, которая уже находилась в сессии.<ref>{{Статья|автор=Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep|заглавие=Data Preparation for Mining World Wide Web Browsing Patterns (PDF)|ссылка=|язык=|издание=Knowledge and Information Systems|тип=|год=1999|месяц=1 (1)|число=|том=|номер=|страницы=5–32|issn=0219-3116|CiteSeerX=10.1.1.33.2792|doi=10.1007/BF03325089}}</ref> Если это не так, сессия считается как новая. Этот метод "демонстрирует очень низкую производительность" на сайтах, которые содержат наборы фреймов.<ref>{{Статья|автор=Berendt, Bettina; Mobasher, Bamshad; Nakagawa, Miki; Spiliopoulou, Myra|заглавие=The Impact of Site Structure and User Environment on Session Reconstruction in Web Usage Analysis (PDF)|ссылка=|язык=|издание=WEBKDD 2002 - Mining Web Data for Discovering Usage Patterns and Profiles. WEBKDD. Springer.|тип=|год=2003|месяц=|число=|том=|номер=|страницы=|issn=|doi=10.1007/978-3-540-39663-5_10|isbn=978-3-540-39663-5}}</ref>


== Примечания ==
== Примечания ==

Версия от 21:06, 11 октября 2019

Определение «сессия» (англ. Session) варьируется, особенно применительно к поисковым системам.[1] Обычно под сеансом понимается «последовательность запросов, сделанных одним конечным пользователем во время посещения определенного сайта».[2] В контексте поисковых систем «сессия» и «сессия запросов» имеют как минимум два определения.[1] В широком смысле слова под ними понимаются все запросы, сделанные пользователем в конкретный период времени.[3] В узком смысле «сессия» в веб-аналитике — это серия запросов или переходов с согласованной базовой потребностью пользователя.

Пользователи

Сессии могут быть использованы для отчетов веб-аналитики для изучения поведения пользователей на веб-сайтах.[4] Исследуемые показатели включают продолжительность сеанса[5] и действия пользователя за сессию.[6] Длительность сеанса рассматривается как более точная альтернатива измерению просмотров страниц.[7][8]

Сессии, которые прошли на сайте, также используются для измерения общего пользовательского трафика, в том числе для измерения количества рабочих часов, затраченных на создание Википедии.[9] Сессии также используются для оперативной аналитики, анонимизации данных, выявления сетевых аномалий и генерации искусственной рабочей нагрузки для тестирования серверов с искусственным трафиком.[10][11]

Реконструкция сессии

Веб-аналитики изучают сессии для получения необходимой информации о сайте, и важную роль здесь играет возможность идентификации сессий. Возможность реконструировать сессию пользователя также называют «восстановлением сеанса». Подходы к реконструкции сессии можно разделить на две основные категории: ориентированные на время и ориентированные на навигацию.[12] Ориентированные на время подходы показывают определенный период неактивности пользователя, который называют «порогом неактивности». И когда наступает бездействие пользователя, предполагается, что он покинул сайт или полностью прекратил использование браузера, и сессия завершилась. Дальнейшие запросы от того же пользователя считаются вторым сеансом. Общее значение для порога неактивности составляет 30 минут.[13][14] Некоторые утверждают, что период сессии в 30 минут создает артефакты вокруг естественно длинных сеансов и экспериментируют с другими периодами.[15][16] Другие считают: «нет временного порога, эффективного при выявлении сессий».[17] Есть альтернатива "порогу неактивности" в 30 мин, которая заключается в использовании пользовательских периодов пребывания на сайте, а не единого порога для всего набора данных.[18][19] В этом подходе возникает проблема предположения, что пороги следуют бимодальному распределению, поэтому он не подходит для анализа данных, охватывающих длительный период времени.[15]

Второй подход, который используют для изучения пользовательской сессии — это подход, ориентированный на навигацию. В этому случае аналитики используют структуру веб-сайтов, в частности, наличие гиперссылок и склонность пользователей переходить между страницами одного и того же веб-сайта, нажимая на них, а не вводить полный URL-адрес в своем браузере.[20] Один из способов идентификации сессий по этим данным состоит в том, чтобы создать карту веб-сайта: если можно определить первую страницу захода, сессия продолжается до тех пор, пока они не окажутся на странице, к которой нельзя получить доступ ни с одной ранее просмотренной страницы. При этом учитывается обратное отслеживание, при котором пользователь будет пересматривать свои шаги перед открытием новой страницы.[21] Более простой вариант, который не учитывает обратное отслеживание, когда HTTP-реферер каждого запроса является страницей, которая уже находилась в сессии.[22] Если это не так, сессия считается как новая. Этот метод "демонстрирует очень низкую производительность" на сайтах, которые содержат наборы фреймов.[23]

Примечания

  1. 1 2 Gayo-Avello, Daniel. A survey on session detection methods in query logs and a proposal for future evaluation // Information Sciences. — 2009. — № 179 (12). — С. 1822–1843. — ISSN 0020-0255. — doi:10.1016/j.ins.2009.01.026.
  2. Arlitt, Martin. Characterizing Web User Sessions // SIGMETRICS Performance Evaluation Review. — 2000. — № 28 (2). — С. 50–63. — doi:10.1145/362883.362920.
  3. Donato, Debora; Bonchi, Francesco; Chi, Tom. Do you want to take notes?: identifying research missions in Yahoo! search pad // Proceedings of the 19th International Conference on World Wide Web. — 2010.
  4. Weischdel, Birgit; Huizingh, Eelko K. R. E. Website optimization with web metrics: a case study. — Proceedings of the 8th International Conference on Electronic Commerce. — 2006. — 463 с. — ISBN 978-1595933928. — doi:10.1145/1151454.1151525.
  5. Jansen, Bernard J.; Spink, Amanda. How are we searching the world wide web? A comparison of nine search engine transaction logs // Information Processing and Management. — 2006. — № 42 (1). — С. 248–263. — ISSN 0306-4573. — doi:10.1016/j.ipm.2004.10.007.
  6. Jansen, Bernard J.; Spink, Amanda; Saracevic, Tefko. Real life, real users, and real needs: a study and analysis of user queries on the web // Information Processing and Management. — 2000. — № 36 (2). — С. 207–227. — ISSN 0306-4573. — doi:10.1016/S0306-4573(99)00056-4.
  7. Khoo, Michael; Pagano, Joe; Washington, Anne L.; Recker, Mimi; Palmer, Bart; Donahue, Robert A. Using Web Metrics to Analyze Digital Libraries. — Proceedings of the 8th ACM/IEEE-CS Joint Conference on Digital Libraries. — ACM, 2008.
  8. Catledge, L.; Pitkow, J. Characterizing browsing strategies in the world-wide web" (PDF) // Proceedings of the Third International World-Wide Web Conference on Technology, Tools and Applications. — 1995. — № 27 (6). — С. 1065–1073. — doi:10.1016/0169-7552(95)00043-7.
  9. Geiger, R.S.; Halfaker, A. Using Edit Sessions to Measure Participation in Wikipedia // Proceedings of the 2013 ACM Conference on Computer Supported Cooperative Work. — ACM, 2014. — С. 861. — ISSN 9781450313315. — doi:10.1145/2441776.2441873.
  10. Meiss, Mark; Duncan, John; Gonçalves, Bruno; Ramasco, José J.; Menczer, Filippo. What's in a Session: Tracking Individual Behavior on the Web // Proceedings of the 20th ACM Conference on Hypertext and Hypermedia. — ACM, 2009.
  11. Arlitt, Martin. Characterizing Web User Sessions (PDF) // SIGMETRICS Performance Evaluation Review. — 2000. — № 28 (2). — С. 50–63. — doi:10.1145/362883.362920.
  12. Spiliopoulou, Myra; Mobasher, Bamshad; Berendt, Bettina; Nakagawa, Miki. A framework for the evaluation of session reconstruction heuristics in web-usage analysis // INFORMS Journal on Computing. — 2003. — № 15 (2). — С. 171–190. — ISSN 1526-5528. — doi:10.1287/ijoc.15.2.171.14445.
  13. Ortega, J.L.; Aguillo, I. Differences Between Web Sessions According to the Origin of their Visits // Journal of Informetrics. — 2010. — № 4 (3). — С. 331–337. — ISSN 1751-157. — doi:10.1016/j.joi.2010.02.001.
  14. Eickhoff, Carsten; Teevan, Jaime; White, Ryen; Dumais, Susan. Lessons from the Journey: A Query Log Analysis of Within-Session Learning. — Proceedings of the Seventh International Conference on Web Search and Web Data Mining. — ACM, 2014. — С. 223–232. — ISBN 9781450323512. — doi:10.1145/2556195.2556217.
  15. 1 2 Mehrzadi, David; Feitelson, Dror G. On Extracting Session Data from Activity Logs // SYSTOR '12. ACM. — 2012. — ISSN 978-1-4503-1448-0. — doi:10.1145/2367589.2367592.
  16. He, Daqing; Goker, Ayse; Harper, David J. Combining evidence for automatic Web session identification // Information Processing and Management. — 2002. — № 38 (5). — С. 727–742. — ISSN 0306-4573. — doi:10.1016/S0306-4573(01)00060-7.
  17. Jones, Rosie; Klinkner, Kristina Lisa. Beyond the Session Timeout: Automatic Hierarchical Segmentation of Search Topics in Query Logs doi. — ACM. — 2008. — 699 с. — ISBN 9781595939913. — doi:10.1145/1458082.1458176.
  18. Murray, G. Craig; Lin, Jimmy; Chowdhury, Abdur. Identification of User Sessions with Hierarchical Agglomerative Clustering // Proceedings of the American Society for Information Science and Technology. — 2006. — № 43 (1). — С. 1–9. — doi:10.1002/meet.14504301312.
  19. Mehrzadi, David; Feitelson, Dror G. On Extracting Session Data from Activity Logs (PDF) // SYSTOR '12. ACM.. — 2012. — ISBN 978-1-4503-1448-0. — doi:10.1145/2367589.2367592.
  20. Spiliopoulou, Myra; Mobasher, Bamshad; Berendt, Bettina; Nakagawa, Miki. A framework for the evaluation of session reconstruction heuristics in web-usage analysis // INFORMS Journal on Computing. — 2003. — № 15 (2). — С. 171–190. — ISSN 1526-5528. — doi:10.1287/ijoc.15.2.171.14445.
  21. Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep. Data Preparation for Mining World Wide Web Browsing Patterns // Knowledge and Information Systems. — 1999. — № 1 (1). — С. 19. — ISSN 0219-3116. — doi:10.1007/BF03325089.
  22. Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep. Data Preparation for Mining World Wide Web Browsing Patterns (PDF) // Knowledge and Information Systems. — 1999. — 1 (1). — С. 5–32. — ISSN 0219-3116. — doi:10.1007/BF03325089.
  23. Berendt, Bettina; Mobasher, Bamshad; Nakagawa, Miki; Spiliopoulou, Myra. The Impact of Site Structure and User Environment on Session Reconstruction in Web Usage Analysis (PDF) // WEBKDD 2002 - Mining Web Data for Discovering Usage Patterns and Profiles. WEBKDD. Springer.. — 2003. — ISBN 978-3-540-39663-5. — doi:10.1007/978-3-540-39663-5_10.