fbpx Колко големи са Големите данни | твоят Бизнес - списание за предприемчивите българи

Колко големи са Големите данни

BIG DATA

Колко големи са Големите данни

Докато ИТ средите продължават да спорят дали BIG DATA е просто модерен термин за познати технологии или е наистина нова тенденция, то публичното пространство прелива от коментари как редица компании успяват вече да се възползват от анализите на големи масиви от данни. Логичният въпрос е "Колко големи?" и всъщност обемът ли е единствената характеристика, която имаме предвид, когато говорим за Големи данни. И защо всъщност е целия този шум, с какво анализът на такива данни е по-различен?

Ако оставим настрана детайлите при обработката на данните от технологично естество, то става дума за решението на няколко проблема:

1) Днес имаме данни, които са толкова обемни или нарастват толкова бързо, че извличането на смислена информация от тях отнема неприемливо дълъг период от време. Да не говорим, че често е важно данните да се събират, анализират и да се получават отговори на запитвания в реално или почти реално време. В свят, в който достъпът до финансови данни за борсови котировки в рамките на 30 милисекунди преди всички останали може да се изрази в милиони печалба, скоростта, с която данните се анализират не е без значение.

2) Нараства броят на източниците, от които имаме нужда да извличаме и комбинираме данни - от таблици в Excel, до социални мрежи, данни от устройства като GPS, "умни" електромери и т.н.

3) Доскоро говорехме предимно за анализ на структурирани данни (съхранявани в таблици), днес обаче имаме все по-голяма нужда от обработка на данни, чиято структура не е предварително известна и варира в широки граници (каквото е например съдържанието на социалните мрежи);

Според IDC, световна анализаторска компания за ИКТ технологии, Big Data е обобщеното название на цяла генерация от нови технологии и архитектури, създадени, за да решават ефективно горните задачи. В детайли за тях ще се говори на организиранато от IDC България конференция "Бизнес анализи и обработка на големи масиви от данни" на 19 септември, х-л Хилтън, София (idc-cema.com/eng/events/52658-idc-big-data-and-business-analytics-forum-2013). Но в този материал са описани основните им характеристики - тези технологии включват оптимизирани хардуерни архитектури, нови архитектури на системите за управление на бази от данни и друг системен софтуер и огромно разнообразие от приложен софтуер, семантични анализи при анализа на текстови масиви

От друга страна причините, поради които се налага обработката на данните, са повече от традиционни: по-добро обслужване на клиентите, разкриване на нови пазарни възможности, повече продажби и приходи, оптимизиране на процеси, намаляване на рисковете, разкриване на измами, прогнозиране и т.н. Списъкът от начини на използване е толкова дълъг, колкото е дълъг и списъкът на потребителите на аналитични технологии, защото всяка компания анализира данни според собствените си нужди.

Изследване на IDC от 2012 година сочи, че сред топ 3-те причини компаниите да внедряват технологии за големи данни са нуждата от анализ на оперативни данни, анализ на данни за поведението на потребителите online, анализ на транзакциите от системите за продажби. Следват ги анализът на данни от машини и устройства и иновационни услуги.

По-специфични за BIG Data задачи обаче са такива, които позволяват да бъдат впрегнати в употреба нови източници на данни: социални мрежи, блогове, глас и видео и т.н. Примери за това са обработката на данни от социалните мрежи, за да се разбере връзката между хора, семантичен анализ на текстове, управление на трафика и др.

Очаква се през 2015 година пазарът на BIG data решения да достигне USD 16,9 милиарда от USD 3.2 милиарда през 2010 като най-голям ръст се очаква при технологиите за съхранение на големи обеми от данни – 64%.

Големи данни - големи разходи?

И така, колко големи трябва да са Вашите данни, за да се класифицират като "големи". Ако инстинктивно мислите за TB, може би си казвате, "Чакай малко, има време да достигнем тези нива". Всъщност въпросът не винаги е в обема на данните. Практически въпросът опира до това дали системата генерира отговор на вашия въпрос за приемливо времe, както и дали при това се обхващат всички данни, които искате да бъдат анализирани. В този смисъл и 300GB могат да се окажат достатъчно големи.

Тук идва въпросът за инвестицията, която трябва да бъде направена, за да се осигури желаната производителност при системи, които се задъхват. Очевидно не винаги решението ще е преминаване към BIG Data технологии. В края на краищата от години ИТ специалистите се борят с проблема с производителността, оптимизирайки различни подсистеми.

Но дори и да решите да поемете по пътя "BIG Data", пазарът предлага доста алтернативи. От мощни интегрирани софтуер и хардуер в една кутия на компании като IBM, EMC, Oracle, HP до множество решения на стартиращи компании, доста от които се базират на платформата с отворен код (Apache Hadoop).

Разбира се в уравнението цена/ цели/ рискове не трябва да се забравят фактори като наличие на квалифицирани специалисти и опит на организацията за работа с аналитични системи.

Facebook коментари