Scrapy

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Scrapy
Логотип программы Scrapy
Тип Web crawler
Разработчик Scrapinghub, Ltd.
Написана на Python[2]
Операционные системы Windows[3], Linux[3], macOS[3] и BSD[4]
Первый выпуск 26 июня 2008 (2008-06-26)
Последняя версия
Репозиторий github.com/scrapy/scrapy
Лицензия модифицированная лицензия BSD[d][5][6]
Сайт scrapy.org (англ.)

Scrapy (читается как "скрэй-пай") – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга, однако также может использоваться для извлечения информации используя API или же как веб краулер общего применения.[7] В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу don't repeat yourself (DRY), таких как Django,[8] это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную оболочку для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.[9]

Некоторые известные компании и продукты, использующие Scrapy: Lyst,[10][11] Parse.ly,[12] Sayone Technologies [13], Sciences Po Medialab,[14] государственный сайт Великобритании Data.gov.uk. [1] Архивная копия от 16 августа 2018 на Wayback Machine

История[править | править код]

Scrapy создавался в лондонской компании Mydeco, занимающейся веб-агрегацией и электронной торговлей, где ее разработали и поддерживали сотрудники Mydeco и Insophia (консалтинговая компания из Монтевидео, Уругвай). Первый публичный релиз был в августе 2008 года под лицензией BSD, а релиз Milestone 1.0 был выпущен в июне 2015 года.[15] В 2011 году Scrapinghub стал новым официальным мейнтейнером.[16][17]

Примечания[править | править код]

  1. Release 2.11.1 — 2024.
  2. The scrapy Open Source Project on Open Hub: Languages Page — 2006.
  3. 1 2 3 Installation guide
  4. Scrapy
  5. Free Software Directory
  6. The scrapy Open Source Project on Open Hub: Licenses Page — 2006.
  7. Scrapy at a glance Архивная копия от 17 сентября 2018 на Wayback Machine.
  8. Frequently Asked Questions. Дата обращения: 28 июля 2015. Архивировано 11 ноября 2020 года.
  9. Scrapy shell. Дата обращения: 28 июля 2015. Архивировано 31 октября 2020 года.
  10. Bell. Scalable Scraping Using Machine Learning. Дата обращения: 28 июля 2015. Архивировано из оригинала 9 октября 2016 года.
  11. Scrapy | Companies using Scrapy. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
  12. Montalenti. Web Crawling & Metadata Extraction in Python. Дата обращения: 28 февраля 2020. Архивировано 19 сентября 2020 года.
  13. Scrapy Companies. Scrapy website. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
  14. Hyphe v0.0.0: the first release of our new webcrawler is out! Дата обращения: 28 февраля 2020. Архивировано 13 июня 2016 года.
  15. "Scrapy 1.0 official release out!" (Mailing list). Архивировано из оригинала 22 января 2011. Дата обращения: 28 февраля 2020.
  16. Pablo Hoffman. List of the primary authors & contributors (англ.). — 2013. Архивировано 29 мая 2017 года.
  17. Interview Scraping Hub Архивная копия от 29 октября 2020 на Wayback Machine.

Ссылки[править | править код]