Голям обем данни или Big Data е термин от информационните технологии, които набра значителна популярност в последните години. Няма ясен количествен или друг измерител, които да разграничава, кога данните стават “Big”. В повечето случаи, когато се говори за Big Data се цитират обеми като petabytes и exabytes, но всъщност основния показател не е размера, а трудностите и предизвикателствата, свързани с големия обем данни.
Този феномен не се наблюдава само през последните години. Всъщност нуждата от повече и по-бързо достъпна информация е налице от самата зора на ИТ индустрията и е част от движещата сила за развитие на технологиите. Основна „вина“ за популяризирането на термина Big Data, като че ли имат компаниите доставчици в ИТ сектора, които го използват като маркетинг похват, за да позиционират по-успешно инструменти за обработка и съхранение на данни. От своя страна много компании изпитват значителни трудности с постоянно нарастващите обеми данни и тези инструменти са добре дошли.
Голямото внимание към тази проблематика е лесно обяснимо с бързо развиващите се технологии, дигитализирането на все повече аспекти от нашия живот и натрупването на големи количества данни не само в сферата на научната дейност и интернет, но и в сфери с търговски и производствени дейности.
Всяка компания в момент от развитието си осъзнава нуждата и ползата от съхраняването и обработката на данни, а данните никога не са достатъчни. В момента, в който компанията изчерпи стандартните, „лесни“ начини за справяне с обема данни, може да се каже, че се е сблъскала с феномена Big Data. За компании като Google и Facebook този обем може да се измерва в десетки екзабайти, за други може да е гигабайти.
Практиката
Само за няколко години VIVACOM застана на челни позиции и се нареди сред най-динамичните играчи на телеком пазара у нас. Голямата клиентска база и многообразието от фиксирани, дейта, мобилни и IP TV услуги, които компанията предлага, обуславя и натрупването на огромни количества от данни. Най-близо до термина Big Data безспорно е корпоративния Data Warehouse – това е централизиран склад за информация, събирана от всички системи в компанията. Тя се обработва и съхранява, така че чрез Business Intelligence (BI) инструменти да превръща данните в навременни репорти, осигуряващи конкурентно предимство за компанията.
В момента DWH базата данни е с големина над 20TB (терабайт) и е с темп на нарастване от над 5TB на година. Основните предизвикателства са свързани със зареждането на данни, обработката и извличането им, така че да са налични в BI портала максимално бързо. За да се постигне стабилна и надеждна система, обработваща такива масиви от данни е необходим цялостен подход на много нива и максимално използване на съвременните технологии.
Хардуер
Ключов компонент е използваният хардуер. Едно от най-тесните места при работа с големи бази данни е сториджа. Все по-достъпни в последните години са Flash технологиите, които комбинирани с automatic tiering технологията могат да са ценово ефективно решение за осигуряване на бърз сторидж. Използването на последно поколение процесори и голямо количество RAM са задължителни за реализация на паралелни процеси, без които навременната обработка на данните би била невъзможна.
Дизайн
Избора на правилния хардуер е важен момент при изграждането на Big Data решение, но основно внимание трябва да се отдели на дизайна на базата данни. Изборът на правилен архитектурен модел е ключов за осигуряване на възможност за обработка и извличане на данните в последствие. DWH&BI отделът на нашата компания се стреми към постоянно оптимизиране на всеки един елемент на това ниво, като някой от използваните похвати са: оптимална големина на блоковете в базата, използване на Compress – спестява до 30% от използваното пространство, агрегации, партишъни, конфигуриране на базата за по-добро бързодействие при работа без индекси и др.
Зареждане на данни
Преди няколко години бяхме изправени пред предизвикателството да синхронизираме потоците на зареждане на данни в DWH от многобройни източници. Стандартно използваните дотогава скриптове се оказаха неефективни пред нивото на комплексност и обемите. Добро решение е използването на ETL(Extract, Transform, Load) инструменти. Чрез тях успяхме по стандартизиран и ефективен начин да съкратим времето за зареждане, да намалим грешките и да гарантираме навременно зареждане на данните в DWH. Добрия ETL инструмент трябва да поддържа следните ключови технологии: Change Data Capture – трансфер на промените в реално време, Parallel processing – паралелни процеси, Data Quality – функции за контрол чистотата на данните, възможности за интеграция и не на последно място ETL инструмента трябва да е лесен за използване.
Извличане на данни
DWH решението на VIVACOM съхранява данни от различни сфери: финанси, продукти и услуги, продажби, потребление и т.н. Знанието е сила и основната цел на DWH/BI отдела е да направи тази сила достъпна за бизнес потребителите. Работата с Big Data може да бъде сложна и да изисква известни IТ познания. Гарантирането на пълноценно използване на системата се постига чрез регулярни срещи, обучаване на супер-потребители и подготвяне на документация и инструкции. Използваните инструменти са на водещи доставчици, специализирани за работа с големи обеми от данни и отговарящи на изискванията ни за постигане на гъвкавост и свобода при дефиниране на търсенията в Big Data.
Използването на BI системи за анализ на събраната от оперативните системи информация, позволява на компанията да има ясна и пълна картина на текущото състояние във всеки един момент, да открива пазарни модели и на база натрупана статистическа информация да предвижда бъдещото развитие. Корелация между данни от различни области предоставя видимост върху разходната и приходната част, възможни злоупотреби и потенциал за по-добри решения за нашите клиенти.
Малко компании могат да си позволят инвестицията за поддържане и развитие на Big Data решения. Бърз сторидж и многопроцесорни системи, софтуерни лицензи и липса на знания в областта могат да спрат подобно начинание в неговото начало.
Друг модерен термин от последните години може да предложи ниско рисково решение на проблема с големите масиви от данни. Облачните услуги елиминират нуждата от големи капиталови разходи с модел плащаш само каквото ползваш, на месечна база. Огромното предимство на Облака е, възможността за клиентите да използват винаги съвременен, надежден хардуер, изграден и предоставян от специалисти с значителен ИТ опит.
VIVACOM е единственият телекомуникационен оператор в страната, който предоставя конвергирани решения през наземна, медна и сателитна инфраструктура, мобилна мрежа и публичен интернет. Компанията поддържа единствения в България, съобразен с международните изисквания, „Център за управление на мрежата“ и най-големия „Център за съхранение и резервиране на данни в реално време“.