Cloudera

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Cloudera, Inc.
Тип Публичная компания
Листинг на бирже NYSE: CLDR
Основание 2009
Основатели Кристофе Бишилья,
Амр Авадалла,
Джеффри Хаммербахер,
Майкл Ольсон
Расположение Flag of the United States.svg США: Пало-Альто
Ключевые фигуры Рейли, Том (генеральный директор),
Дуг Каттинг (главный архитектор)
Отрасль разработка программного обеспечения (МСОК6201)
Продукция Коммерческая версия Hadoop, Cloudera Impala[en]
Оборот $301 млн (2018)
Операционная прибыль −$389 млн (убыток, 2018)
Чистая прибыль −$386 млн (убыток, 2018)
Капитализация $2,66 млрд (7 сентября 2018)[1]
Сайт cloudera.com

Cloudera — американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop.

Деловую модель компании сравнивают с бизнесом Red Hat — Cloudera создаёт дистрибутивы программных продуктов для организаций на основе свободного программного обеспечения и извлекает прибыль, оказывая техническую поддержку поставляемых решений[2][3]. С бумом технологий «больших данных», Cloudera неоднократно отмечена как одна из самых многообещающих компаний, способных решать задачи соответствующего класса[4][5].

С осени 2018 года находится в процессе слияния с основным конкурентом на рынке Hadoop-дистрибутивов — американской компанией Hortonworks[en].

История[править | править код]

Компания была основана в октябре 2008 года в Бёрлингейме (штат Калифорния) со стартовым капиталом $5 млн, основной целью бизнеса выбрана коммерциализация проекта Hadoop. Основатели компании — Кристофе Бишилья (англ. Chirstophe Bischiglia), ранее работавший в Google, Амр Авадалла (Amr Awadallah, вице-президент корпорации Yahoo, отвечавший за системы анализа и хранилища данных), Джеффри Хаммербахер (Jeff Hammerbacher, менеджер проекта Hive в компании Facebook) и Майкл Ольсон (Michael Olson), вице-президент корпорации Oracle, ранее генеральный директор Sleepecat, разрабатывавшей и развивавшей Berkeley DB и поглощённой в 2006 году Oracle)[6]. Хаммербахер организовал начальное финансирование проекта фондом Accel Partners, а Ольсон возглавил компанию. Суммарно на начальной стадии было привлечено $11 млн, а кроме Accel среди инвесторов указывается Greylock Partners и бизнес-ангелы Гидеон Ю (Gideon Yu) и Катерина Фейк (Caterina Fake)[7].

Среди нанятых в первые месяцы сотрудников были создатели Hadoop Дуг Каттинг (англ. Doug Cutting) и Майкл Кафарелла (Mike Cafarella), бывшие руководители компаний VMware (Дайен Грин, Diane Green) и MySQL AB (Мартен Микос, Marten Mikos)[8]. Благодаря факту перехода Каттинга в Cloudera, компания была охарактеризована как «новый знаменосец Hadoop»[9].

В 2009 году Бишилья вошёл пятым в список из 22-х лучших молодых технологических предпринимателей еженедельника Businessweek[10], а Хаммербахер попал в этот список на седьмую (из 15) позицию в 2010 году. При номинации Бишильи Cloudera была охарактеризована как сервисная компания, оказывающая технические консультации по Hadoop, тогда как вклад Хаммербахера в 2010 году отмечен как трансформация бизнеса компании, сделавшая её поставщиком тиражируемого программного обеспечения для организаций[11].

В ноябре 2011 года компания получила дополнительное финансирование в размере $40 млн[12], в декабре 2012 года — ещё $65 млн[13], среди инвесторов очередных раундов указываются Ignition Partners, Greylock, Accel, Meritech Capital Partners и In-Q-Tel[14][13].

В октябре 2012 года компания представила продукт Impala[⇨], обеспечивающий доступ на языке SQL к данным в кластере под управлением Hadoop, появление такого продукта было встречено как неожиданность, так как преобладающей риторикой компаний, сфокусированных на технологиях «больших данных», являлся отказ от традиционных технологий, имеющих в основе SQL (англ. old SQL, по созвучию со «старой школой» — old school)[15].

В июне 2013 года на должность генерального директора приглашён Том Райли (Tom Reilly), ранее приведший две технологические компании к поглощению крупными игроками (компания-производитель MDM-системы Trigo была куплена IBM в 2004 году, а фирма ArcSight[en] была выведена на IPO и вскоре поглощена Hewlett-Packard в 2010 году), событие оценено как подготовка либо к первичному размещению, либо продаже бизнеса[16]. Ольсон перешёл на пост стратегического директора и председателя правления. В июле 2013 года фирма поглотила британскую компанию Myrryx, основанную Шоном Оуэном (Sean Owen), одним из основных авторов входящего в экосистему Hadoop масштабируемого фреймворка для машинного обучения Apache Mahout[en], объявлено о назначении Оуэна на должность «директора по науке о данных» (англ. director of data science)[17].

К середине 2013 года за пять раундов инвестиций компания получила в общей сумме $141 млн[16], а в очередном раунде в марте 2014 года компания привлекла ещё $160 млн[18]. В марте 2014 года, после шестого раунда инвестиций, Intel за $740 млн приобрела долю в компании в размере 18 %, таким образом, оценив бизнес Cloudera приблизительно в $4 млрд[19]; при этом Intel отказалась от развития созданного годом ранее собственного дистрибутива Hadoop в пользу продвижения решений от Cloudera[18]. В июне 2014 году компания приобрела фирму-разработчика технологии шифрования данных Gazzang[20].

В апреле 2017 года компания провела первичное размещение на Нью-Йоркской фондовой бирже, в результате которого привлекла $215 млн[21]. Осенью 2017 года поглощена нью-йоркская фирма-разработчик алгоритмов машинного обучения Fast Forward Labs, сделка была отмечена как ответ на тесную интеграцию Hortonworks с IBM, делающим упор на развитие систем искусственного интеллекта в рамках программы Watson, и отказавшимся от своего дистрибутива Hadoop в пользу Hortonworks[22].

В октябре 2018 года объявлено о слиянии с Hortonworks с оценкой стоимости формируемого бизнеса в $5,2 млрд, притом по завершению сделки, планируемому на начало 2019 года, акционерам Cloudera достанется 60 % объединённой компании[23].

CDH[править | править код]

CDH (англ. Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop, включающий ряд смежных программ и библиотек и собственных утилит разработки Cloudera, бесплатно распространяемый и коммерчески поддерживаемый для определённых дистрибутив Linux (Red Hat Enterprise Linux, CentOS, Ubuntu, SuSE SLES, Debian). Среди смежных с Hadoop программных проектов Apache в дистрибутив включены: Flume, HBase, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, Zookeeper. Кроме того, в дистрибутив входит собственная подсистема управления кластером Cloudera Manager[⇨], включающая сценарии развёртывания Hadoop-инфраструктуры как в локальных, так и в облачных средах (Rackspace, Amazon EC2, Softlayer[en]), а также утилиты и конфигурации для поддержки автоматизации сборки средствами Apache Maven.

К началу 2012 года поставлялись две версии CDH — CDH2 (на основе Hadoop 0.20.1) и CDH3 (на основе Hadoop 0.20.2). Дистрибутив CDH3 включён в поставку аппаратно-программного комплекса Oracle Big Data appliance[24], притом первую линию поддержки заказчиков по Hadoop обеспечивает корпорация Oracle, а Cloudera предоставляет техническое сопровождение по более сложным проблемам. В середине 2012 года вышла версия CDH4 на основе Hadoop 2.0 (включающей модуль YARN), в состав CDH4 включены также три собственных продукта фирмы — Hue[en] (браузерный интерфейс управления Hadoop-кластером), Impala[⇨] и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase). В 2014 году выпущена версия CDH5; версия CDH6, вышедшая весной 2018 года, создана на основе Hadoop 3.0 (ключевым новшеством которой стала поддержка помехоустойчивого кодирования для HDFS, позволяющая существенно снизить физические размеры кластеров)[25].

Impala[править | править код]

Cloudera Impala[en] — массово-параллельный механизм интерактивного выполнения запросов на языке SQL к данным, хранимым в HDFS и HBase, распространяется по лицензии Apache 2.0. В отличие от Hive, обеспечивающего трансляцию запросов на SQL-подобном языке (HiveQL) в MapReduce-задания, выполняемые в пакетном режиме, Impala выполняет запросы в распределённой среде интерактивно, распределяя запрос по узлам обработки на основе собственного механизма, не прибегая к MapReduce.

Cloudera Manager[править | править код]

Cloudera Manager — специализированный компонент, позволяющий автоматизировать создание и модификацию Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий на обработку, настраивать оповещения по наступлению тех или иных событий, связанных с эксплуатацией инфраструктуры распределённой обработки. Годовая стоимость технического сопровождения составляет около $4 тыс. за узел кластера[26]. Для Cloudera Manager существует бесплатная редакция (англ. free edition), работающая только на кластерах, состоящих из менее, чем 50-ти узлов и лишённая ряда свойств, доступных коммерческим подписчикам (таких, как мониторинг производительности, управление версиями конфигурации, поддержка Kerberos).

Тематические продукты[править | править код]

Вслед за прогнозом Garnter в цикле хайпа технологий управления данными 2017 года, предполагающим устаревание самой концепции «дистрибутива Hadoop» в скором времени, компания сместила акцент в продуктовом предложении на тематические комплекты, составленные фактически из тех же компонентов, что собираются в CDH, но нацеленные на те или иные специфические задачи. Так, в 2018 году появились продукты под наименованиями Data Warehouse (сборка для хранилищ данных, с фокусом на Impala), Operational DB (для операционных баз данных, вокруг HBase, Kudu[en] и Spark), Data Engineering (для ETL и интерактивного доступа к данным), Data Science (для задач «науки о данных»), Enterprise Data Hub (для платформ данных корпоративного уровня — фактически полная сборка дистрибутива Hadoop плюс каталог данных на основе собственного компонента SDX).

Стоимостная политика с 2018 года формируется вокруг тематических продуктов; в зависимости от комплектации, подписчики ежегодно платят от $4 тыс. за поддержку каждого узла продуктов Data Enegineering и Data Science до $10 тыс. за узел продукта Enterprise Data Hub.

Примечания[править | править код]

  1. Cloudera Inc. Morning Star (7 сентября 2018). Архивировано 7 сентября 2018 года.
  2. Малик, 2009, I see some interesting parallels between Hadoop and Red Hat, which rose to prominence on the back of Red Hat Linux, a version of Linux optimized for corporate users.
  3. Рао, 2011, Cloudera helps distribute Hadoop, and provides practical services around the technology, similar to what Red Hat does for the Linux framework.
  4. Нэрн, 2010, Storage giant EMC has teamed up with Cloudera, a specialist in database software, to create technologies to better support “big data” … Startup Cloudera is using the open source Hadoop software package to analyse very large sets of data.
  5. Вэнс, 2011, “It will be guys like Jeff who understand what to do with big data”.
  6. Прикетт-Морган, 2009, …Christophe Bisciglia, who led the partnership between Google, IBM, and the National Science Foundation to create Hadoop grids for academics to play around with; Amr Awadallah, a former Yahoo vice president of engineering that led the data warehousing and analytics effort behind that company's mail, search, finance, and news services; - Mike Olson, formerly the chief executive officer of open source database maker Sleepycat Software (now owned by Oracle); and Jeff Hammerbacher, formerly of social networking giant Facebook and the manager who created the Hive project, which is a data warehousing layer that works in conjunction with Hadoop and that Facebook uses to do data analysis on its many petabytes of information stored in its user data warehouse.
  7. Businessweek, 2010, Funding: $11 million from Accel Partners, Greylock Partners, and angel investors that include Gideon Yu and Caterina Fake.
  8. Прикетт-Морган, 2009, …Doug Cutting and Mike Cafarella as advisors as well as Diane Green (founder and former CEO at virtualization specialist VMware) and Marten Mikos.
  9. Handy, Alex. Hadoop creator goes to Cloudera (англ.). SD Times (9 October 2009). Проверено 25 декабря 2011. Архивировано 11 марта 2012 года.
  10. Businessweek, 2010, Cloudera co-founder Christophe Bisciglia was one of Bloomberg BusinessWeek's Best Young Tech Entrepreneurs of 2009.
  11. Businessweek, 2010, Toughest decision: Changing Cloudera's business model to make it into a software vendor.
  12. Worthen, Ben. Tide Shifts on Web Start-Ups (англ.), N. Y.: The Wall Street Journal (22 November 2011). Проверено 28 декабря 2011. «More big-funding deals have been struck since then, including $85 million for human-resources-software maker Workday Inc., $81 million for online file-sharing site Box.net Inc., $50 million for marketing company Marketo Inc. and $40 million for data-management company Cloudera Inc».
  13. 1 2 Darrow, Barb Cloudera snares $65M more to boost international, enterprise growth (англ.). Gigaom (6 December 2012). — «The funding round was led by Accel Partners with help from Greylock Partners, Ignition Partners, In-Q-Tel, and Meritech Capital Partners». Проверено 10 декабря 2012. Архивировано 17 декабря 2012 года.
  14. Рао, 2011, Cloudera just announced $40 million in new funding led by Ignition Partners, Greylock, Accel, Meritech Capital Partners, and In-Q-Tel.
  15. Brust, Andrew Cloudera’s Impala brings Hadoop to SQL and BI. Big Data darling Cloudera's Impala product promotes SQL to peer-level with MapReduce (англ.). ZDNet (25 October 2012). — «Instead of beckoning “old school” database and BI professionals (i.e. the majority of enterprise developers and DBAs) to move to Hadoop, it announced the beta of a new product, Impala, that brings Hadoop to them». Проверено 1 января 2014.
  16. 1 2 Prickett Morgan Cloudera taps new CEO for inevitable IPO push or acquisition. Former CEO becomes chairman and chief strategist (англ.). The Register (20 June 2013). Проверено 1 января 2014.
  17. Clark, Jack Cloudera acquisition: It’s a Myrrix (cle). Elephant snorts baby elephant for machine learning skills (англ.). The Register (16 July 2013). Проверено 17 июля 2013. Архивировано 31 августа 2013 года.
  18. 1 2 Harris, Dereck Intel jettisons its Hadoop distro and puts millions behind Cloudera (англ.). Gigaom (27 March 2014). Проверено 1 апреля 2014.
  19. Clark, Jack Don’t touch my trunk! Intel is $740m lighter after Cloudera cash shot. Huge funding deal keeps Oracle, IBM away from upstart’s yellow elephant (англ.). The Register (31 March 2014). Проверено 1 апреля 2014.
  20. Liam Tung. Cloudera buys big data encryption outfit Gazzang. Cloudera buys Gazzang to offer enterprise customers encryption for data at rest in Hadoop clusters. ZDNet (15 июня 2014).
  21. Anita Balakrishnan. Cloudera shares close more than 20% higher on Day 1. CNBC (28 апреля 2017).
  22. Rebecca Hill. Cloudera bags AI biz, eyes up IBM customers… and continues to report operating losses. Someone’s noticed Big Blue’s deal with Hortonworks. The Register (8 сентября 2017).
  23. Kevin Kelleher. Cloudera, Hortonworks Stocks Soar as the Big-Data Rivals Announce a $5.2B Merger. Fortune (3 октября 2018). Проверено 4 октября 2018.
  24. Pricket Morgan, Timothy Oracle mounts Cloudera's elephant for big data ride (англ.). The Register (10 January 2012). Проверено 13 января 2012. Архивировано 6 сентября 2012 года.
  25. Tony Baer. Cloudera Enterprise 6 hits the streets. Hadoop 3.0 takes a starring role in the next release of Cloudera's platform. ZDNet (22 мая 2018). Проверено 23 сентября 2018.
  26. Pricket Morgan, Timothy. Cloudera gets proactive with Hadoop management (англ.). The Register (8 September 2011). Проверено 15 апреля 2013. Архивировано 18 апреля 2013 года.

Ссылки[править | править код]