Доклад по архитектуре и топологии масштабируемой системы данных Etsy

В шорт-листе западных докладчиков на HighLoad++ (http://www.highload.ru/)
более 30 (ТРИДЦАТИ, вы не ослышались) крупнейших мировых специалистов.
Начнем представлять их 🙂 Итак, Крис Бон (Chris Bohn).

Крис является IT-специалистом уже более 20 лет. В настоящее время он
занимает должность ведущего разработчика баз данных в etsy.com. Он дольше
всех работает инженером в Etsy — более 5 лет — и имеет глубокие знания в
области построения масштабируемых систем данных. Сейчас он руководит
проектом по интеграции системы Vertica с системой данных etsy.com. Именно он
разработал инструменты репликации, которые будут представлены на конференции
HighLoad++. Крис имеет степень бакалавра Калифорнийского университета в
Беркли.

Опыт Etsy.com в создании методов анализа больших данных, включая
инструменты, созданные для репликации данных из PostgreSQL в Vertica. Эти
инструменты вскоре будут представлены opensource-сообществу на конференции
HighLoad++ 2012 (http://www.highload.ru/).

Etsy.com — весьма популярный во всем мире сайт с большим объёмом трафика и
транзакций. Архитектура базы данных Etsy претерпела ряд преобразований для
повышения масштабируемости сайта. Целью одного из наших текущих проектов
является улучшение методов анализа данных. Мы используем Hadoop для
выполнения распределенных вычислений по модели MapReduce, но он
пакетно-ориентированный и не подходит для построения нестандартных запросов.
Наши бизнес-аналитики живут в мире SQL, они знают, как написать хороший
SQL-запрос, и мы пришли к тому, что Hadoop нам не подходит.

Нам была нужна система, в которой наши аналитики могли бы работать так, как
им удобно, иметь доступ ко всем большим данным типа сведений о посещении
сайта и возможность сопоставлять их с записями главной базы данных. Чтобы
получить быстрый и мощный инструмент для анализа данных, специалисты Etsy
стали использовать Vertica — колоночную базу данных, ориентированную на
формирование быстрых аналитических запросов. В этом докладе мы расскажем о
своем опыте использования Vertica и представим инструменты, созданные нами
для своевременной и надежной передачи данных из различных источников в базу.

Логи данных о посещении Etsy достигают очень больших размеров, и мы
используем пакетные задания для обработки и загрузки многотерабайтных данных
в базу данных Vertica. Мы также организовали непрерывную репликацию с
ограничением скорости передачи данных таблиц фактов и таблиц измерений из
нашей главной базы данных на Postgres в БД Vertica. Для этого нам пришлось
создать свою систему репликации Postgres—>Vertica, поскольку ее не
существовало, и мы успешно ее используем. Etsy всегда являлся лидером по
количеству публикаций кода своих внутренних приложений, и созданный нами
инструмент для репликации данных из Postgress в Vertica будет официально
представлен на HighLoad++ 2012. Обратите внимание, что наша разработка
поддерживает репликацию данных не только из Postgress, но и из MySQL и
других источников.

В докладе мы пройдемся по архитектуре и топологии нашей системы данных и
затем остановимся на наших инструментах репликации — расскажем подробнее об
их установке, функционировании и мониторинге и покажем собственно систему.
Vertica требует приобретения лицензии, однако существует бесплатная версия
Community Edition, поддерживающая до 1 Тб входных данных. Сфера ее
применения обширна, и мы расскажем о нескольких способах ее применения. В
нашем докладе мы покажем, как с помощью инструментов репликации можно легко
и быстро передать данные в Vertica из Postgres и других источников.

Интересно? http://www.highload.ru/

Доклад по архитектуре и топологии масштабируемой системы данных Etsy

Добавить комментарий