Škálovatelná big data infrastruktura pro Telekom

Moderní datová infrastruktura pro Slovak Telekom, která otevírá přístup k novým zajímavým datům a obchodním příležitostem.
2TB

denní přírůstek dat

Množství dat, které T-mobile (regionálně Slovak Telecom) jako dceřiná společnost třetího největšího telekomunikačního operátora na světě (Deutsche Telekom) zpracovává každou sekundu, je téměř nepředstavitelné. Jejich problém spočíval v tom, že byli připraveni začít do svého provozu zavádět technologie big data, ale několik let předtím se obávali, že náklady na implementaci by nemusely mít pozitivní návratnost.

Jak datové technologie postupovaly, náklady klesaly a nakonec vyhledali naši pomoc, abychom jim pomohli nastavit datovou architekturu. Stále chtěli být ve svých investicích konzervativní, a tak nás požádali, abychom vše nastavili tak, aby to zvládl relativně malý tým inženýrů. Zvolili jsme architekturu schopnou zpracovávat dávková data i data v reálném čase, která by nepotřebovala rozsáhlou inženýrskou práci, aby umožnila datové toky a zpracování dat. Efektivita, řízení nákladů a rychlost zpracování dat jsou pro takto velké společnosti nesmírně důležité. Pro jejich potřeby jsme se rozhodli implementovat datovou platformu Cloudera (Gauss Algorithmic byl první společností, která se stala plně certifikovaným partnerem společnosti Cloudera v České republice).

V rámci architektury jsme implementovali distribuci Cloudera Hadoop s Apache Kafka a Apache Spark. Nástroje jako Apache Flume a Apache Sqoop byly vybrány proto, aby na začátku usnadnily množství datového inženýrství potřebného ke zpracování dat, zatímco dnes inženýři přijali Apache Spark kvůli vyššímu výkonu.

Systém běží jako více logických clusterů, které jsou nezávisle škálovatelné. O integraci dat se starají dva clustery, jejichž jádrem je open-source technologie Apache Kafka. Fungují především jako ochranná vrstva, která snižuje množství "špinavých" dat proudících do požadovaných úložných vrstev. Tyto integrační vrstvy provozujeme na soukromé cloudové infrastruktuře provozovatele, což nám umožňuje mnohem rychleji přidávat zdroje a řešit neočekávané nárůsty datových toků.

Samotné datové jezero se stará o další zpracování a analýzu včetně strojového učení. Tento cluster běží na holém hardwaru pro lepší zvýšení výkonu. Správa zdrojů je vyladěna podle potřeb různých týmů, jako jsou IT nebo datoví vědci přistupující k platformě. Tito koncoví uživatelé mají k dispozici notebooky v jazyce Python a metody přístupu založené na SQL.

Řešení splňuje požadované úrovně zabezpečení a ochrany dat. Celkově dnes systém provozuje kritické pracovní zátěže, přistupuje k více než 10 interním a externím zdrojům dat, což pomáhá při každodenním marketingovém a provozním rozhodování. big data solutions are not one-size-fits all. Dokázali jsme zajistit mnohem vyšší návratnost investic do technologií jednoduše tím, že jsme si přesně vyslechli jejich potřeby a bolestivé body a implementovali řešení, které splňovalo jejich specifikace a zároveň bylo cenově dostupné a provozuschopné s menším týmem inženýrů.

Profil klienta

Slovak Telekom

Sídlo

Bratislava, SK

Průmysl

Telco

Spolupráce od

1.12.2015

Chcete se do tohoto případu ponořit hlouběji?

Zeptejte se nás

Další případovky