Analýza velkých částek dat. Velká data: analytika a řešení

Pouze líný nemluví velká data, ale co to je a jak to funguje - je nepravděpodobné. Začněme s nejjednodušší terminologií. V ruštině jsou velká data různé nástroje, přístupy a metody zpracování jak strukturovaných i nestrukturovaných dat, aby byly používat pro specifické úkoly a cíle.

Nestrukturovaná data jsou informace, které nemají předem stanovenou strukturu nebo nejsou organizovány v určitém pořadí.

Termín "velká data" představila redaktor časopisu Nature Clifford Lynch zpět v roce 2008 ve speciální otázce věnované výbušnému růstu světových objemů informací. Ačkoli samozřejmě existovaly velká data. Podle odborníků obsahuje velká kategorie dat většinu datových toků nad 100 GB za den.

Viz také:

Dnes, pod tímto jednoduchým termínem jsou skryté pouze dvě slova - skladování a zpracování dat.

Velká data - jednoduchá slova

V moderním světě jsou velká data socioekonomický fenomén, který je spojen s tím, že se objevily nové technologické schopnosti analyzovat obrovské množství dat.

Viz také:

Pro snadné pochopení si představte supermarket, ve kterém veškeré zboží není v obvyklém pořadí. Chléb vedle ovoce, rajčatová pasta poblíž mražené pizzy, kapalina pro zapálení před stojanem s tampony, na kterém mimo jiné stojí avokádo, tofu nebo shiitake houby. Velká data nastavují vše na svém místě a pomáhají vám najít matice mléko, zjistit náklady a datum vypršení platnosti a také - kdo, kromě vás, nakupuje takové mléko a jak je lepší než kravské mléko.

Kenneth Cucier: velká data - nejlepší data

Technologie Velká data.

Obrovské objemy dat jsou zpracovány tak, aby osoba mohla získat specifické a nezbytné výsledky pro jejich další účinné použití.

Viz také:

Ve skutečnosti jsou velká data řešením problémů a alternativou k tradičním systémům pro správu dat.

Techniky a analýzy metody platné pro velká data McKinsey:

  • Dolování dat;
  • Crowdsourcing;
  • Integrace míchání a dat;
  • Strojové učení;
  • Umělé neuronové sítě;
  • Rozpoznávání vzorů;
  • Prognóza Analytics;
  • Simulace;
  • Prostorová analýza;
  • Statistická analýza;
  • Vizualizace analytických dat.

Horizontální škálovatelnost, která poskytuje zpracování dat - základní princip zpracování velkých dat. Data jsou distribuována do výpočetních uzlů a zpracování dochází bez degradace produktivity. McKinsey zahrnovaly relační kontrolní systémy a obchodní inteligenci v kontextu použitelnosti.

Technologie:

  • NOSQL;
  • Mapreduce;
  • Hadoop;
  • Hardwarová řešení.

Viz také:

Pro velká data, tradiční definující charakteristiky vyrobené Meta Group ještě v roce 2001, které se nazývají " Tři V.»:

  1. OBJEM. - Velikost fyzického objemu.
  2. Rychlost. - míra růstu a potřebu rychlého zpracování dat pro získání výsledků.
  3. Odrůda. - Schopnost současně zpracovávat různé typy dat.

Velká data: aplikace a funkce

Objemy nehomogenních a rychle příchozích digitálních informací nelze léčit tradičními nástroji. Samotná analýza dat umožňuje vidět určité a nenápadné vzorce, které člověk nevidí. To vám umožní optimalizovat všechny sféry našeho života - od vlády do výroby a telekomunikací.

Například některé společnosti bránily své zákazníky před podvodem před několika lety, a péče o peníze klienta je obavy o své vlastní peníze.

Susan Etlyger: Jak se vypořádat s velkými daty?

Velká data založená na datech: Sberbank, Beeline a další společnosti

Bílin má obrovské množství účastnických údajů, které používají nejen pracovat s nimi, ale také vytvářet analytické produkty, jako je externí poradenství nebo IPTV analytics. Beeline segmentovala základní a chráněné zákazníky z peněžních podvodů a virů, pomocí HDF a Apache Spark, a pro zpracování dat - Rapidminer a Python.

Viz také:

Nebo si pamatujte Sberbank se svým starým případem nazývaným jako Safi. Jedná se o systém, který analyzuje fotografie k identifikaci zákazníků banky a zabraňuje podvodům. Systém byl zaveden v roce 2014, systém je založen na srovnání fotografií ze základny, které tam přicházejí z webkamerů na stojanech v důsledku počítačového vidění. Základem systému je biometrická platforma. Vzhledem k tomu, případy podvodů se snížily desetkrát.

Velká data na světě

Do roku 2020, podle prognóz, lidstvo bude tvořit 40-44 Zettabites informací. A do roku 2025 poroste 10 krát, zpráva o věku 2025 dat, která byla připravena analytiky IDC. Zpráva konstatuje, že samotné podniky budou generovány většinu dat a nikoli obyčejných spotřebitelů.

Analytici výzkumu věří, že údaje se stanou důležitým aktivem a bezpečnost je kritickým základem v životě. Také autoři práce jsou přesvědčeni, že technologie změní ekonomickou krajinu a obvyklý uživatel komunikovat s připojenými zařízeními asi 4800 krát denně.

Velký datový trh v Rusku

V roce 2017 by globální příjmy na velkém datovém trhu měly dosáhnout 150,8 miliardy dolarů, což je o 12,4% více než loni. V globálním měřítku ruský trh Velké datové služby a technologie jsou stále velmi malé. V roce 2014 společnost Americká společnost IDC hodnotila na 340 milionů dolarů. V Rusku se technologie používá v bankovním sektoru, energii, logistice, veřejném sektoru, telekomunikaci a průmyslu.

Viz také:

Pokud jde o datový trh, pochází pouze v Rusku. Uvnitř ekosystému RTB jsou poskytovatelé dat majiteli správy dat (DMP) a výměny dat (výměna dat). Telecom operátoři v pilotním režimu jsou rozděleni s informačními bankami spotřebitelů na potenciálních dlužníků.

Typicky, velká data pocházejí ze tří zdrojů:

  • Internet (sociální sítě, fóra, blogy, média a jiné stránky);
  • Firemní archivy dokumentů;
  • Indikace senzorů, zařízení a dalších zařízení.

Velká data v bankách

Kromě výše popsaného systému v Sberbank strategie pro období 2014-2018. Říká se, že je důležité analyzovat supermaiss dat pro kvalitní zákaznický servis, řízení rizik a optimalizaci nákladů. Banka nyní využívá velkých údajů k řízení rizik, boj proti podvodům, segmentaci a kreditních úvěrových nákladech, personálnímu řízení, předpovídání front v kancelářích, výpočet bonusů pro zaměstnance a další úkoly.

VTB24 má velký údaje pro segmentaci a správu odlivu zákazníka, tvorba účetní závěrky, analýzu zpětné vazby v sociálních sítích a fórech. Chcete-li to udělat, použije Teradata, SAS Visual Analytics a SAS Marketing Optimizer Solutions.

Znáte tento slavný vtip? Velká data jsou jako sex až 18:

  • každý si o tom myslí;
  • všichni o tom jim říká;
  • každý si myslí, že jejich přátelé to dělají;
  • téměř nikdo to neudělá;
  • ten, kdo to dělá špatně;
  • každý si myslí, že příště se dopustí lépe;
  • nikdo nebere bezpečnostní opatření;
  • někdo hanba přiznat, že něco neví;
  • pokud někdo něco dělá, je z toho vždy hodně hluku.

Ale pojďme si myslet, že tam bude vždy běžná zvědavost s jakýmkoliv hlukem v okolí: Jaký druh sýra-boronu je něco opravdu důležitého? Je-li krátký - Ano, existuje. Podrobnosti - níže. Vybrali jsme pro vás nejúžasnější a zajímavější aplikace velkých datových technologií. Tento malý průzkum trhu o srozumitelných příkladech je konfrontován s jednoduchým faktem: budoucnost nedochází, není třeba "čekat na další n let a kouzlo se stane realitou." Ne, to už přišlo, ale stále nepostřelitelný na oko, a proto Singularity Cape také nespalovat známý bod trhu práce tolik. Jít.

1 Jak platí velké datové technologie, kde vznikly

Velké IT firmy jsou místem, kde vznikla údajová věda, takže jejich vnitřní kuchyně v této oblasti je nejzajímavější. Kampaň Google, Map Snižte paradigma, jehož jediným účelem je trénovat své programátory pro strojní učení technologie. A tak leží jejich konkurenční výhodu: Po obdržení nových znalostí, zaměstnanci zavedou nové metody v těch projektů Google, kde neustále pracují. Představte si, jak obrovský seznam oblastí, ve kterých může kampaň udělat revoluci. Jeden příklad: Používají se neuronové sítě.

Corporation a zavádí stroj na učení všem svým produktům. Jeho výhoda - přítomnost velkého ekosystému, který zahrnuje všechna digitální zařízení používaná v každodenním životě. To umožňuje Apple dosáhnout nemožné úrovně: kampaň má tolik údajů o uživatelích jako jakýkoli jiný. Zásady ochrany osobních údajů je zároveň velmi přísná: Společnost se vždy chlubila skutečností, že nepoužívá údaje o zákaznících pro propagační účely. V souladu s tím, že informace uživatelů jsou šifrovány tak, že Apple právníci nebo dokonce FBI s objednávkou jej nemohou přečíst. Najdete zde velkou recenzi vývoje Apple v oblasti AI.

2 Velká data na 4 kolech

Moderní auto-informační jednotka: Akumuluje všechna data na ovladači, prostředí, připojených zařízeních a o sobě. Již brzy jedno vozidlo, které je připojeno k síti, jako je ten, který bude generovat až 25 GB dat za hodinu.

Dopravní telematika je používána automobilkami v průběhu let, ale nyní složitější metodou sběru dat je lobby, která bude plně využívat velká data. A to znamená, že nyní technologie mohou informovat řidiče o špatných provozních podmínkách automatickým aktivací protiblokovací brzdy a potopení systému.

Další obavy, včetně BMW, využívají velké datové technologie ve spojení s informacemi shromážděnými od testovaných prototypů zabudovaných do automobilů "paměťová paměť" a stížnosti klientů, aby určily slabé body modelu v rané fázi výroby. Namísto ručního posouzení dat, které trvá měsíce, je aplikován moderní algoritmus. Chyby a náklady na jejich eliminaci se sníží, což umožňuje urychlit pracovní procesy pro analýzu informací v BMW.

Podle odborných odhadů do roku 2019 bude obrat trhu spojený s jedinou síť automobilů dosáhnout 130 miliard dolarů. To není překvapující, pokud zohledňujete tempo integrace automobilkami technologií, které jsou nedílnou součástí vozidlo.

Použití velkých dat pomáhá dělat auto bezpečnější a funkční. Takže, Toyota vložením informačních komunikačních modulů (DCM). Tento nástroj používaný pro velké datové procesy a analyzuje data shromážděná DCM, aby se další extrahovat výhody.

3 Aplikace velkých dat v medicíně


Provádění velkých datových technologií v lékařské sféře umožňuje lékaře pečlivě zkoumat onemocnění a zvolit účinný průběh léčby pro konkrétní případ. Díky analýze informací se zdravotní pracovníci snazší předpovědět relapsy a přijmout preventivní opatření. Výsledkem je - přesnější diagnostika a zlepšené léčebné metody.

Nová technika umožnila podívat se na problémy pacientů na druhé straně, což vedlo k otevření dříve neznámých zdrojů problému. Například některé závody jsou geneticky více predisponovány na onemocnění srdce, spíše než představitele jiných etnických skupin. Nyní, když pacient si stěžuje na určitou nemoc, lékaři brát v úvahu údaje o zástupcích své rasy, kteří si stěžovali na stejný problém. Sběr a analýza dat vám umožní dozvědět se o pacientům mnohem více: od preferencí v potravinách a životním stylu genetické struktuře DNA a buněčných metabolitů, tkání, orgánů. Centrum genomové medicíny pro děti v Kansasu využívá pacienty a analyzuje mutace genetického kódu, který způsobuje rakovinu. Individuální přístup k každému pacientovi s přihlédnutím k jeho DNA, zvýší účinnost léčby na kvalitativně odlišnou úroveň.

S pochopením toho, jak jsou použity velká data, následuje první a velmi důležitá změna v lékařské sféře. Když pacient podstoupí průběhu léčby, nemocnice nebo jiné zdravotnické zařízení může získat spoustu významných informací o osobě. Shromážděné informace se používají k předpovědi relapsu nemocí s určitým stupněm přesnosti. Například, pokud pacient utrpěl mrtvici, lékaři studují informace o době poruch mozkového voda, analyzují průběžnou dobu mezi předchozími precedenty (v případě takového), věnovat zvláštní pozornost stresujícím situacím a těžké fyzické námahy v životě pacienta. Na základě těchto údajů, nemocnice vydávají jasný plán akce, aby se zabránilo možnosti mrtvice v budoucnu.

Nositelná zařízení hrající jejich roli, která pomáhají identifikovat zdravotní problémy, i když člověk nemá žádné zjevné příznaky jedné nebo jiné nemoci. Namísto vyhodnocení stavu pacienta dlouhým vyšetřovacím kurzem může lékař vyvodit závěry na základě sestavené fitness tracker nebo "inteligentní" informační hodiny.

Jednou z nejnovějších příkladů je. Zatímco pacient absolvoval průzkum kvůli novému útoku křeče způsobeného zmeškaným příjmem drog, lékaři zjistili, že člověk má mnohem vážnější zdravotní problém. Tento problém byl fibrilací síňů. Diagnóza byla provedena v důsledku skutečnosti, že pracovníci oddělení obdržel přístup k pacientově telefonu, a to k aplikačnímu konjugátu s jeho fitness tracker. Data z aplikace se ukázaly jako klíčovým faktorem při určování diagnózy, protože v době zkoušky nebyly v době muže žádné srdeční odchylky.

To je jen jeden z mála případů, které ukazuje proč používat velká data V lékařské sféře dnes hraje takovou významnou roli.

4 Analýza dat se již stala maloobchodní tyčí

Pochopení uživatelských požadavků a cílení je jedním z největších a nejvíce vysoce uvedených oblastí pro použití velkých datových nástrojů. Velké údaje pomáhají analyzovat klientské návyky, takže v budoucnu je lepší porozumět spotřebitelským požadavkům. Firmy se snaží rozšířit tradiční datový soubor s informacemi ze sociálních sítí a historie hledání prohlížeče, aby bylo možné vytvořit maximální celý obrázek klienta. Někdy velké organizace jako globální cíl zvolili vytvoření vlastního prediktivního modelu.

Například cílové obchody s hlubokou analýzou dat a vlastním predikčním systémem je možné určit s vysokou přesností. Každý klient je opraven ID, které je zase připojeno k kreditní kartě, jméno nebo e-mail. Identifikátor slouží jako druh nákupního košíku, kde jsou informace uloženy o všem, co kdy získalo. Síťové specialisté zjistili, že ženy v předpisech jsou aktivně získány neočinnými prostředky před druhým trimestrem těhotenství a během prvních 20 týdnů jsou uvedeny na přísadách vápníku, zinku a hořčíku. Na základě obdržených údajů zašle kupóny pro děti pro děti zákazníkům. Slevy na zboží pro děti jsou "ředí" kupóny pro jiné produkty tak, aby nabídky koupit postýlku nebo plenky nevypadaly příliš obsedantní.

Dokonce i vládní oddělení našla způsob, jak používat velké datové technologie pro optimalizaci volebních kampaní. Někteří se domnívají, že vítězství B. Obamy v amerických prezidentských volbách v roce 2012 je kvůli vynikající práci jeho týmových analytiků, které byly ošetřeny obrovskými datovými poli v pravém klíči.

5 Velká data o stráži zákona a pořádku


Během posledních několika let se donucovací struktury práva podařilo zjistit, jak a kdy používat velká data. Známý fakt je, že národní bezpečnostní agentura uplatňuje velkou datovou technologii, aby se zabránilo teroristickým činům. Další oddělení používají progresivní metodiku, aby se zabránilo menším trestným činům.

Los Angeles Policejní oddělení platí. Zapojuje se, co se běžně nazývá proaktivní ochranu vymáhání práva. Využití trestných činů po určitou dobu, algoritmus definuje oblasti, kde je největší pravděpodobnost spáchání trestných činů. Systém poukazuje na takové stránky na mapě města v malých červených čtvercích a tato data jsou okamžitě přenášena do hlídkových strojích.

Policajti Chicago. použijte velkou datovou technologii Trochu jinak. Strážci vymáhání práva z města větrů jsou také, ale je zaměřen na vypouštění "rizikového kruhu", který se skládá z lidí, kteří mohou být obětí nebo členem ozbrojeného útoku. Podle novin New York Times, tento algoritmus přiřazuje osobu posouzení zranitelnosti na základě své zločinecké minulosti (zatýkání a účast na přestřelcích, které patří do kriminálních skupin). Systémový vývojář zajišťuje, že zatímco systém studuje trestnou minulost osoby, nebere v úvahu sekundární faktory, jako je závod, pohlaví, etnický původ a umístění člověka.

6 Jak velké datové technologie pomáhají rozvíjet města


Veniam General Director Joao Barros demonstruje sledovací mapu Wi-Fi-routers v autobusech města Porto

Analýza dat se také používá ke zlepšení řady aspektů životně důležité činnosti měst a zemí. Například věděl, jak a kdy používat velké datové technologie, můžete optimalizovat dopravní toky. Za tímto účelem se zohlední pohyb automobilů online, jsou analyzovány sociální média a meteorologická data. Dnes, řada měst absolvovalo kurz o využití analýzy dat, aby se spojila dopravní infrastruktura s jinými typy nástrojů v jediném celku. Jedná se o koncept "Smart" město, ve kterém autobusy čekají na pozdní vlak a semafory jsou schopny předpovědět silničním výstavě, aby se minimalizovaly dopravní zácpy.

Na základě technologie velkých dat ve městě Long Beach, "inteligentní" vodoměry, které se používají k omezení nelegálního zavlažování. Dříve byly aplikovány na snížení spotřeby vody soukromými domácnostmi (maximální výsledek je snížení 80%). Úspora sladké vody - otázka je vždy otázkou. Zvláště když stát zažívá nejtěžší sucho, který byl kdy pevný.

Seznam těch, kteří používají velká data, se připojili ke zástupcům oddělení města Los Angeles City. Na základě údajů získaných ze silničních kamerových senzorů, orgány vytvářejí kontrolu semaforů, což umožňuje nastavit provoz. Pod kontrolou počítačového systému je přibližně 4 500 tisíc semaforů po celém městě. Podle oficiálních údajů, nový algoritmus pomohl snížit přetížení o 16%.

7 Pokrok motoru v marketingu a prodeji


V marketingu vám velké datové nástroje umožňují odhalit, jejichž podpora, jejíž myšlenky na jednom nebo jinou fázi prodejního cyklu je nejúčinnější. Pomocí analýzy dat je určeno, jak jsou investice schopny zlepšovat systém řízení vztahů se zákazníky, který strategie by měla být vybrána pro zvýšení konverzního faktoru a jak optimalizovat životní cyklus klienta. V podnikání související s Cloud Technologies se používají velké datové algoritmy k zjistit, jak minimalizovat cenu přilákání klienta a zvýšit svůj životní cyklus.

Diferenciace cenových strategií v závislosti na intrasystému zákazníka, to je pravděpodobně hlavní věc, pro kterou se v marketingu používají velká data. McKinsey zjistil, že asi 75% příjmů průměrné společnosti představuje základní produkty, z nichž 30% je nesprávné ceny. Zvýšení ceny 1% vede ke zvýšení provozního zisku o 8,7%.

Forresterova výzkumná skupina se podařilo určit, že analýza dat umožňuje obchodníkům zaměřit se na to, jak učinit vztahy se zákazníky úspěšnější. Zkoumání směru vývoje klientů, odborníci mohou odhadnout jejich úroveň loajality, jakož i prodloužit životní cyklus v kontextu konkrétní společnosti.

Optimalizace prodejních strategií a fází vstupu na nové trhy s použitím geoanalitics se zobrazují v biofarmaceutickém průmyslu. Podle McKinsey, společnosti zabývající se výrobou léčiv utratí v průměru od 20 do 30% podávání a prodeje správy. Pokud podnikům začne aktivněji použijte velká dataPro stanovení nejziskovějších a rychle rostoucích trhů budou výdaje okamžitě sníženy.

Analýza dat je prostředkem k získání úplného pohledu na klíčové aspekty jejich podnikání. Zvýšené příjmy, snížení nákladů a snížení pracovního kapitálu jsou tyto tři úkoly, které se moderní podnik snaží vyřešit pomocí analytických nástrojů.

A konečně, 58% marketingových ředitelů zajišťuje, že implementace velkých datových technologií lze sledovat v optimalizaci vyhledávače (SEO), e-mail a mobilní marketing, kde analýza dat hraje nejvýznamnější úlohu při tvorbě marketingových programů. A pouze 4% méně respondentů je přesvědčeno, že velká data budou hrát významnou roli ve všech marketingových strategiích v průběhu dlouhých let.

8 Analýza dat na stupnici planety

Ne méně zvědavý. Je možné, že je to stroj-učení, které bude nakonec jedinou silou schopnou zachovat křehkou rovnováhu. Téma lidského vlivu na globální oteplování stále způsobuje spoustu sporů, takže pouze spolehlivé prediktivní modely založené na velkém množství dat mohou poskytnout přesnou odpověď. Nakonec nám pokles emisí pomůže všem: budeme trávit méně na energii.

Nyní velká data nejsou abstraktní koncept, který může najít jeho použití za pár let. Jedná se o zcela pracovní soubor technologií, které mohou těžit téměř ve všech oblastech lidské činnosti: od lékařství a ochrany veřejného pořádku na trh a prodeje. Krok aktivní integrace velkých dat do našeho každodenního života začal, a kdo ví, co bude role velkých dat za pár let?

Velká data.- Angličtina "Velká data". Termín se objevil jako alternativa k DBMS a stal se jedním z hlavních trendů IT infrastruktury, když většina obřích průmyslu - IBM, Microsoft, HP, Oracle a další začali tento koncept používat ve svých strategiích. Pod velkými daty pochopte obrovské (stovky terabyte) řadu dat, které nelze zpracovat tradičními způsoby; Někdy - nástroje a metody zpracování těchto dat.

Příklady velkých zdrojů dat: RFID události, komunikace v sociálních sítích, meteorologické statistiky, informace o umístění účastníků mobilních mobilních sítí a dat ze zvukových / videozáznamů. Proto "velká data" je široce používána ve výrobě, zdravotní péči, veřejné správě, zejména internetu, zejména při analýze cílového publika.

Charakteristický

Známky velkých dat jsou definovány jako "tři v": objem (opravdu velký); Odrůda - heterogenita, sada; Rychlost - rychlost (potřeba velmi rychlého zpracování).

Velká data jsou nejčastěji nestrukturovaná a pro jejich zpracování jsou zapotřebí speciální algoritmy. Mezi metody analyzování velkých dat patří:

  • ("Dolování dat") - komplex přístupů k detekci skrytých užitečných znalostí, které nelze získat standardními metodami;
  • Crowdsourcing (dav - "Crow", Sourcing - použití jako zdroj) - řešení významných úkolů s obecným úsilím dobrovolníků, kteří nejsou v povinné pracovní smlouvě a vztahy koordinační činnosti s využitím IT nástrojů;
  • Data Fusion & Integration ("míchání a implementace dat") - soubor metod pro připojení množiny zdrojů v rámci hluboké analýzy;
  • Strojní učení ("strojový trénink") - pododstavec umělého inteligence výzkumu, který studuje metody použití statistické analýzy a získání předpovědí na základě základních modelů;
  • rozpoznávání obrazu (například rozpoznávání obličeje v hledáčku fotoaparátu nebo videokamery);
  • prostorová analýza - použití topologie, geometrie a geografie pro konstrukci dat;
  • vizualizace dat je výstupem analytických informací ve formě ilustrací a grafů pomocí interaktivních nástrojů a animací pro sledování výsledků a výstavby základu pro další monitorování.

Skladování a analýza informací se provádí na velkém počtu vysoce výkonných serverů. Klíčová technologie je Hadoop, Open Source.

Vzhledem k tomu, že množství informací v čase se zvýší pouze složitost, není dostat data, ale jak je zpracovat s maximálním přínosem. Obecně platí, že proces práce s velkými údaji obsahuje: shromažďování informací, jeho strukturování, vytváření pohledů a kontextů, rozvoj doporučení pro akci. Dokonce před první etapou je důležité jasně definovat cíl práce: co přesně je třeba data potřebná, například definice cílového publika. V opačném případě existuje riziko získání mnoha informací bez pochopení toho, jak konkrétně lze použít.

Předpokládalo se, že celkový globální objem vytvořených a replikovaných dat v roce 2011 může představovat asi 1,8 satetta (1,8 bilionu gigabajt) - asi 9krát více než to, co bylo vytvořeno v roce 2006.

Složitější definice

Nicméně " velká data`Pozvěte více než jen analýzu obrovského množství informací. Problém není tak, že organizace vytvářejí obrovské množství dat, a ve skutečnosti, že většina z nich je prezentována ve formátu, špatně relevantní pro tradiční strukturovaný formát databáze - jedná se o webové protokoly, videozáznamy, textové dokumenty, kód počítače, nebo Například geoprostorová data. To vše je uloženo v mnoha rozmanitých úložištích, někdy i mimo organizaci. V důsledku toho může korporace mít přístup k obrovskému množství svých dat a nemá požadované nástrojeZavést vztahy mezi těmito údaji a učinit významné závěry na základě nich. Přidat sem skutečnost, že data jsou nyní aktualizována stále a častěji a získáte situaci, ve které tradiční metody analýzy informací nemohou ovlivnit obrovské množství neustále aktualizovaných dat, které nakonec a otevírá silniční technologie velká data.

Nejlepší definice

V podstatě, koncept velká data To znamená pracovat s informacemi o obrovském objemu a různých složení, velmi často aktualizované a umístěno v různých zdrojích, aby se zvýšila efektivita práce, vytváření nových produktů a zvyšování konkurenceschopnosti. Poradenská společnost Forrester dává stručné znění: ` Velká data Kombinovat techniky a technologie, které odstraňují význam údajů o extrémním limitu praktičnosti ".

Jak velký je rozdíl mezi obchodní analýzou a velkými daty?

Craig Bati, výkonný ředitel marketingu a ředitele technologií Fujitsu Austrálie, naznačil, že obchodní analýza je popisným procesem pro analýzu výsledků dosažených podnikáním v určitém časovém období, mezitím jako rychlost zpracování velká data Umožňuje provést analýzu prediktivní, schopnou nabídnout obchodní doporučení pro budoucnost. Velká datová technologie také umožňují analyzovat více datových typů ve srovnání s nástroji Business Analytics Tools, což umožňuje zaostřit nejen na strukturovaných skladovacích zařízeních.

Matt Slocum z O "Reilly Radar věří, že velká data A obchodní analytici mají stejný cíl (hledat odpovědi na otázku), liší se od sebe ve třech aspektech.

  • Velká data jsou navržena tak, aby zvládla významnější množství informací než obchodní analytik, a to samozřejmě odpovídá tradiční definici velkých dat.
  • Velká data jsou určena pro zpracování rychleji a měnící se informace, což znamená hluboký výzkum a interaktivitu. V některých případech jsou výsledky vytvořeny rychleji, než je načtena webová stránka.
  • Velká data jsou určena pro zpracování nestrukturovaných dat, jejichž metody použití začnou studovat až po navázání jejich sbírky a skladování, a požadujeme algoritmy a možnost dialogu, abychom usnadnili hledání trendů obsažených v těchto polích.

Podle White Browned Bílé knihy Oracle `Oracle Information Architecture: Architektura Information Architecture: Architect's Guide pro velká data. (Oracle Information Architecture: architekta průvodce na velké data), při práci s velkými údaji se přiblížíme informace jinak než při provádění obchodní analýzy.

Práce s velkými údaji není podobná obvyklému procesu business intelligence, kde s jednoduchým přidáním známých hodnot přináší výsledek: Například výsledek přidání placených účtů se stává objemem prodeje za rok. Při práci s velkými údaji je výsledek získán v procesu čištění pomocí postupných modelování: první hypotéza je předložena, statistický, vizuální nebo sémantický model je postaven, loajalita k hypotézům rozšířena jeho základna a pak Další je předložen dopředu. Tento proces vyžaduje výzkumný pracovník nebo interpretaci vizuálních hodnot nebo sestavování interaktivních dotazů založených na znalostech, nebo vývoj adaptivních algoritmů `strojírenské trénink, který je schopen získat požadovaný výsledek. A životnost takového algoritmu může být spíše krátká.

Metody analýzy velkých dat

Existuje mnoho různých metod pro analýzu datových polí, které jsou založeny na nástroji vypůjčených ze statistik a informatiky (například strojní učení). Seznam nepředstírá, že je kompletní, ale odráží přístupy nejživější v různých průmyslových odvětvích. Zároveň by mělo být zřejmé, že výzkumníci pokračují v práci na vytváření nových technik a zlepšování stávajících. Některé z těchto metod nejsou navíc nutně aplikovány výhradně na velká data a mohou být úspěšně použity pro menší pole (například testování A / B, regresní analýza). Samozřejmě je analyzováno více objemové a diverzifikované pole, tím přesnější a relevantnější data mohou být získány na výstupu.

Testování A / B. Technika, ve které je kontrolní vzorek střídavě ve srovnání s ostatními. Je tedy možné identifikovat optimální kombinaci ukazatelů, aby bylo dosaženo například nejlepší reakce spotřebitelů pro marketingovou nabídku. Velká data Umožněte vám strávit obrovské množství iterací a získat statisticky spolehlivý výsledek.

Sdružení pravidlo učení. Soubor technik pro identifikaci vztahů, tj. Asociativní pravidla mezi proměnnými ve velkých datových polích. Použitý b. dolování dat..

Klasifikace. Sada technik, které vám umožní předpovědět chování spotřebitelů v konkrétním segmentu trhu (rozhodování o nákupu, odtoku, objemu spotřeby atd.). Použitý b. dolování dat..

Analýza klastrů.. Statistická metoda klasifikace objektů skupinami detekcí neznámých společných znaků. Použitý B. dolování dat..

Crowdsourcing.. Metody shromažďování dat z velkého počtu zdrojů.

Data fúze a integrace dat. Sada technik, které vám umožní analyzovat komentáře uživatelů sociálních sítí a porovnávat s výsledky prodeje v reálném čase.

Dolování dat.. Sada technik, které vám umožní určit nejvíce náchylný k postupnému produktu nebo kategorii služeb spotřebitelů, identifikovat vlastnosti nejúspěšnějších zaměstnanců, předpovídají model chování spotřebitelů.

Ensemble Učení. V této metodě se na úkor podílí mnoho predikativních modelů, jejichž kvalita předpovědí.

Genetické algoritmy.. V této technice možné řešení Představují ve formě `chromozome`, který lze kombinovat a vzájemně. Stejně jako v procesu přirozeného evoluce, nejvíce přizpůsobený individuální přežije.

Strojové učení. Směr v počítačové vědě (historicky, jméno ` umělá inteligence`), která sleduje cíl vytvářet samostudium algoritmů na základě analýzy empirických údajů.

Zpracování přirozeného jazyka (NLP.). Sada vypůjčených z počítačových věd a lingvistika techniky pro rozpoznání přirozeného jazyka osoby.

Síťová analýza. Sada metod analýzy spojení mezi uzly v sítích. S ohledem na sociální sítě vám umožní analyzovat vztah mezi jednotlivými uživateli, firmami, komunity atd.

Optimalizace. Soubor numerické metody Pro redesign komplexních systémů a procesů ke zlepšení jednoho nebo více ukazatelů. Pomáhá při výrobě strategických rozhodnutí, například složení trhu regulátor výrobku, Proveďte analýzu investic a tak dále.

Rozpoznávání vzorů. Sada technik s vlastním učením prvků pro předvídání modelu spotřebního chování.

Prediktivní modelování. Metody, které vám umožní vytvořit matematický model Před daným pravděpodobným scénářem pro rozvoj událostí. Například analýza databází CRM pro možné podmínky, které budou předplatiteli vyzváni ke změně poskytovatele.

Regrese. Sada statistických metod pro identifikaci vzorů mezi změnou závislé proměnné a jedním nebo více nezávislými. Často se používá pro prognózování a předpovědi. V dolování dat.

Analýza sentimentu. Metody posuzování spotřebitelského sentimentu jsou založeny na technikách rozpoznávání lidských jazyků. Dovolují vám být vytáhl z obecného informační tok Zprávy týkající se předmětu zájmu (například spotřebitelským produktem). Vedle odhadnout polaritu úsudku (pozitivní nebo negativní), míře emocionality a tak dále.

Zpracování signálu.. Vypůjčeno z rádiového inženýrství soubor technik, které sleduje cíl rozpoznávání cílů na pozadí hluku a jeho další analýzu.

Prostorová analýza. Sada částečně vypůjčených z metod statistik pro analýzu prostorových dat - topologie terénu, zeměpisné souřadnice, geometrie objektů. Zdroj velká data V tomto případě často provádějí geografické informační systémy (GIS).

  • Revolution Analytics (založená na jazyce R pro podložka.

Zvláštní zájem o tento seznam představuje Apache Hadoop - otevřeným zdrojem, který byl za posledních pět let testován jako analyzátor dat většinou akcií trackery. Jakmile Yahoo otevřel kód Hadoop s open source komunitou, celý směr pro vytváření produktů založených na Hadoop se objevil v IT průmyslu. Téměř všechny moderní analýzy velká data Zajistěte integrační nástroje s Hadoopem. Jejich vývojáři působí jako začínající a známé světové společnosti.

Řešení trhů pro správu velkých dat

Velké datové plošiny (BDP, velká datová platforma) jako prostředek boje proti digitálním pracím

Schopnost analyzovat velká data, V překvapení zvané velké údaje, vnímané jako dobré, a určitě. Ale je to opravdu? Co může akumulace rampantních dat? S největší pravděpodobností, že domácí psychologové ve vztahu k člověku se nazývají patologický sklad, silhloromicia nebo obrazně "Plushkinův syndrom". V angličtině, krutá vášeň pro sběr všeho v řadě se nazývá horda (z anglického hromadu - "Stock"). Podle klasifikace duševních onemocnění se chorodování počítá pro duševní poruchy. Digitální hromadění (digitální hromadění) se přidává do digitální éry, mohou trpět individuálními identitami a celými podniky a organizacemi ().

Světový a ruský trh

Velká data krajina - hlavní dodavatelé

Zájem o nástroje pro sběr, zpracování, řízení a analýzu velká data Vystaveny všem vedoucím IT společnosti, což je docela přirozené. Za prvé, oni přímo čelí tomuto fenoménu ve svém vlastním podnikání, zadruhé velká data Otevřete vynikající možnosti pro rozvoj nových výklenek trhu a přilákat nové zákazníky.

Na trhu se objevilo mnoho startupů, které dělá podnikání na zpracování obrovských datových polí. Některé z nich používají hotovou infrastrukturu Cloud poskytovaná hlavními hráči jako Amazon.

Teorie a praxe velkých dat v průmyslových odvětvích

Historie vývoje

2017

TMAXSoft Prognóza: Další "Wave" velká data budou vyžadovat upgrade DBMS

Podniky jsou známy, že v jejich akumulovaných obrovských množstvích dat obsahují důležitá informace o jejich podnikání a klientech. Pokud společnost může úspěšně uplatňovat tyto informace, bude mít významnou výhodu ve srovnání s konkurenty, a bude schopen nabídnout to nejlepší než on, produkty a služby. Mnoho organizací však stále nemůže účinně používat velká data Vzhledem k tomu, že jejich zděděná infrastruktura IT není schopna poskytnout nezbytnou kapacitu skladovacích systémů, procesů výměny dat, nástrojů a aplikací nezbytných pro zpracování a analýzu velkých polí nestrukturovaných dat, což extrahuje cenné informace z nich uvedené v TMAXSOFT.

Kromě toho zvýšení kapacity procesoru nezbytné pro analýzu neustále roste objemu dat může vyžadovat významné investice do zastaralé IT infrastruktury organizace, jakož i dodatečné podpůrné zdroje, které by mohly být využity k rozvoji nových aplikací a služeb.

5. února 2015, Bílý dům vydal zprávu, ve které otázka byla projednána, jak velká data»Zřídit různé ceny pro různé kupující - praxe známý jako" Cenová diskriminace "nebo" diferencované ceny "(personalizované ceny). Zpráva popisuje výhodu "velkých údajů" jak pro prodejce, tak kupující, a jeho autoři dospějí k závěru, že mnoho problematických otázek vyplývajících z příchodu velkých údajů a diferencovaných cen lze vyřešit v rámci stávajících antidiskriminačních právních předpisů a zákony chránících práv spotřebitelů.

Zpráva konstatuje, že v této době existují pouze individuální fakta, která naznačují, jak společnosti používají velké údaje v kontextu individuálního marketingu a diferencovaných cen. Tyto informace ukazují, že prodejci používají cenové metody, které lze rozdělit do tří kategorií:

  • studium křivky poptávky;
  • Pokyny (řízení) a diferencované ceny založené na demografických datech; a
  • cílové chování behaviorálního marketingu (behaviorální zaměření - cílení chování) a individualizované ceny.

Studium křivky poptávky: Aby bylo možné objasnit poptávku a studium chování spotřebitelů, obchodníci často provádějí experimenty v této oblasti, během nichž jeden ze dvou možných cenových kategorií je náhodně jmenován klienty. "Technicky, tyto experimenty jsou formou diferencovaných cen, protože jejich důsledek se stává odlišnými cenami pro zákazníky, i když jsou" nediskriminační "v tom smyslu, že všichni zákazníci mají pravděpodobnost" dostat "za vyšší cenu stejné ceny . "

ŘÍZENÍ): Jedná se o praxi prezentací produktů spotřebitelům na základě jejich příslušnosti ke konkrétní demografické skupině. Webové stránky počítačové společnosti tak mohou nabídnout stejný notebook s různými typy zákazníků v různých cenách, usazených na základě informací o nich oznámených (například v závislosti na tom, zda tento uživatel Zástupce státních orgánů, vědeckých nebo obchodních institucí, nebo soukromou osobou) nebo ze své zeměpisné polohy (například definované IP adresou počítače).

Cílové chování behaviorální a individualizované cenyV těchto případech se osobní údaje kupujících používají pro cílenou reklamní a přizpůsobené ceny pro určité produkty. Například online inzerenti používají shromážděné reklamními sítěmi a prostřednictvím souborů cookie třetích stran o činnosti uživatelů na internetu, aby se zaměřila na zaslání propagačních materiálů. Takový přístup, na jedné straně, umožňuje spotřebitelům získat reklamu zboží a služeb pro ně, nicméně, to však může způsobit obavy těchto spotřebitelů, kteří nechtějí určité typy svých osobních údajů (např. Informace o Bez jejich souhlasu byla shromažďována návštěvní místa související s lékařskými a finančními otázkami).

I když je cílený behaviorální marketing rozšířený, existuje relativně málo důkazů o individualizovaných ceně v online prostředí. Zpráva naznačuje, že to může být způsobeno tím, že příslušné metody jsou stále vyvíjeny, nebo se skutečností, že společnosti nejsou v žádném spěchu používat individuální ceny (nebo raději chválit o tom) - možná se obávají negativní reakce spotřebitelé.

Autoři zprávy se domnívají, že "pro jednotlivého spotřebitele je použití velkých údajů nepochybně kvůli potenciálnímu návratu i rizicích." Uznávajíce, že při použití velkých údajů se objevují problémy transparentnosti a diskriminace, zpráva zároveň tvrdí, že stávající zákony o antidiskriminaci a zákony o ochraně spotřebitele jsou dostačující k jejich vyřešení. Zpráva však také zdůrazňuje potřebu "průběžného monitorování" v případech, kdy společnosti používají důvěrná informace Orvámy buď metody, které nejsou pokryty stávajícím regulačním rámcem.

Tato zpráva je pokračováním úsilí Bílého domu ke studiu použití "velkých dat" a diskriminačních cen na internetu a relevantní důsledky pro americké spotřebitele. Dříve bylo uvedeno, že pracovní skupina Bílého domu pro velké údaje zveřejnila svou zprávu o této otázce v květnu 2014. Federální komise pro obchod (FTC) také tyto otázky zvážila během semináře o diskriminaci v září 2014 v září 2014 v důsledku použití velkých údajů.

2014

Gartner rozptýlí mýty o "velkých datech"

V analytické poznámce pádu 2014, Gartner uvedl řadu mýtů společných mezi IT manažery týkající se velkých dat a jejich vyvrácení.

  • Každý realizuje velké systémy zpracování dat rychleji než my

Zájem o větší datové technologie se zaznamenává: 73% organizací zkoumaných analytikem Gartner v letošním roce již investuje do příslušných projektů nebo se shromažďují. Většina těchto iniciativ je však stále v nejranějších fázích a pouze 13% respondentů již taková řešení implementovala. Nejtěžší je zjistit, jak získat příjem z velkých dat, rozhodnout, kde začít. Mnoho organizací je uvízlo v pilotním stádiu, protože nemohou vázat novou technologii konkrétním obchodním procesům.

  • Máme tolik dat, že není třeba se obávat malých chyb v nich

Někteří IT manažeři věří, že malé nedostatky v údajích nemají vliv na celkové výsledky analýzy obrovských objemů. Pokud je spousta dat, každá chyba samostatně ovlivňuje výsledek, analytici značka, ale také se stává více. Kromě toho je většina analyzovaných dat vnější, neznámá struktura nebo původ, takže pravděpodobnost chyb roste. Ve světě velkých dat je tedy kvalita ve skutečnosti mnohem důležitější.

  • Velká datová technologie zruší potřebu integrovat data

Velká data slibují schopnost zpracovávat data v originálním formátu s automatickým formováním obvodu, jak je číst. Předpokládá se, že to umožní analyzovat informace ze stejných zdrojů pomocí více datových modelů. Mnozí se domnívají, že bude také umožnit koncovým uživatelům interpretovat jakoukoli soubor údajů podle jejího uvážení. Ve skutečnosti, většina uživatelů často potřebuje tradiční cestu s hotovým schématem, kdy jsou data formátována odpovídajícím způsobem, a existují dohody o úrovni integrity a jak by se měl vztahovat k skriptu použití.

  • Datový sklad nemá smysl použít pro komplexní analytici

Mnoho správců systémů správy informací věří, že to nemá smysl trávit čas vytváření datového skladu, s přihlédnutím k tomu, že komplexní analytické systémy používají nové typy dat. Ve skutečnosti, v mnoha systémech komplexní analýzy používá informace z úložiště dat. V ostatních případech musí být navíc připraveny nové typy údajů k analýze ve velkých systémech pro zpracování dat; Je nutné rozhodovat o vhodnosti údajů, principy agregace a nezbytnou úroveň kvality - taková příprava může nastat mimo úložiště.

  • Datová jezera se změní na úložiště dat

Ve skutečnosti jsou dodavatelé zavádějící zákazníci, umístění datových jezer (datové jezero) jako nahrazení skladovacích zařízení nebo jako kritické prvky analytické infrastruktury. Základními technologiemi jezer údajů postrádají splatnost a šířku funkčnosti inherentních ve skladovacích zařízeních. Proto by vůdci odpovědní za správu údajů by měli počkat, dokud jezera dosáhnout stejné úrovně rozvoje, věří v Gartner.

Accenture: 92% prováděcího systému velkých údajů je s výsledkem spokojeno

Mezi hlavní výhody velkých dat se respondenti nazvaní:

  • "Vyhledávání nových zdrojů příjmů" (56%), \\ t
  • "Zlepšení zkušeností zákazníků" (51%),
  • "Nové produkty a služby" (50%) a
  • "Příliv nových zákazníků a zachování starší loajality" (47%).

V úvodu nových technologií čelilo tradičním problémům mnoho společností. Pro 51% překážkového bloku byla bezpečná bezpečnost, za 47% - rozpočet, 41% - nedostatek potřebných rámů a pro 35% - složitost při integraci stávající systém. Téměř všechny dotazované společnosti (cca 91%) plánují vyřešit problém s nedostatkem personálu a najmout specialisty z velkých dat.

Firmy optimistické hodnotí budoucí technologie velkých dat. 89% věří, že obchodní podnik mění stejně jako internet. 79% respondentů poznamenalo, že společnosti, které nemají velké data, ztratí konkurenční výhodu.

Respondenti se však zabýval názorem, že to stálo za to být velké. 65% respondentů se domnívá, že se jedná o "velké datové karty", 60% je přesvědčeno, že je "pokročilá analytika a analýza" a 50% je, že se jedná o "Data vizualizačních nástrojů".

Madrid utratí 14,7 milionu eur na správu velkých dat

V červenci 2014 se stalo známým, že Madrid by používal velkou datovou technologii pro řízení městské infrastruktury. Náklady na projekt je 14,7 milionu eur, základem implementovatelných řešení budou technologie pro analýzu a řízení velkých dat. S jejich pomocí Urban Administration bude spravovat práci s každým poskytovatelem služeb a zaplatit odpovídajícím způsobem v závislosti na úrovni služeb.

Mluvíme o dodavatelích administrace, které následují stav ulic, osvětlení, zavlažování, zelených výsadby, provádějí čištění území a vývozu, jakož i zpracování odpadků. V průběhu projektu bylo vyvinuto 300 klíčových ukazatelů výkonnosti městských služeb pro speciálně vybrané inspektory, na jejichž základě bude provedeno 1,5 tisíce různých kontrol a měření denně. Kromě toho město začne používat inovativní technologickou platformu s názvem Madrid Inteligente (Mint) - Smart Madrid.

2013

Odborníci: Módní vrchol na velkých datech

Každý bez výjimky od dodavatele na trhu s správy dat v této době technologie vyvíjejí technologie pro velkou správu dat. Tento nový technologický trend je také aktivně diskutován profesionální komunitou, vývojářům i odvětvovými analytiky a potenciálními spotřebiteli těchto řešení.

Jako DataShift zjistil, jak leden 2013, vlna diskusí " velká data"Překročeno všechny představitelné velikosti. Po analýze počtu zmiňů velkých údajů o sociálních sítích se datasashift vypočítal, že v roce 2012 byl tento termín použit asi 2 miliardy časů v místech vytvořil asi 1 milion různých autorů po celém světě. To je ekvivalentní 260 příspěvků za hodinu, s vrcholem odkazů činil 3070 referencí za hodinu.

Gartner: Každý druhý ředitel IT je připraven utratit peníze na velkých datech

Po několika letech experimentů s velkými datovými technologiemi a prvními implementacemi v roce 2013 se přizpůsobení těchto rozhodnutí výrazně zvýší, předpovídá v Gartneru. Výzkumníci rozhovorů o tom vůdcům po celém světě a zjistili, že 42% respondentů již investovalo do velkých datových technologií nebo plánu učinit tyto investice v příštím roce (údaje za březen 2013).

Společnosti jsou nuceny utratit peníze na zpracování technologie. velká dataVzhledem k tomu, že informační krajina se rychle mění, požaduje nové přístupy k zpracování informací. Mnoho společností již si uvědomilo, že velká datová pole jsou kritická a práce s nimi umožňuje dosáhnout výhod, které nejsou k dispozici při použití tradičních zdrojů informací a metod zpracování. Kromě toho trvalá povinnost na téma "Velká data" v médiích je vytápění zájem o příslušné technologie.

Frank BuyTendijk, viceprezident Gartner, dokonce zavolal na společnost zmírnit prach, protože některé se obávají, že zaostávají za konkurenty ve vývoji velkých dat.

"Není nutné obávat příležitosti k implementaci myšlenek na základě technologií" velkých dat "jsou vlastně nekonečné," řekl.

Podle Gartner, do roku 2015, 20% z globálních 1000 listů firem bude trvat strategický zaměření na "infrastrukturu".

V očekávání nových funkcí, které s nimi přinese technologii zpracování "velkých dat", nyní mnoho organizací organizuje proces sběru a ukládání různých druhů informací.

Pro vzdělávací a vládní organizace, stejně jako průmyslové firmy, je největší potenciál pro transformaci podnikání položen v kombinaci akumulovaných dat s tzv. Dark dat (doslova "tmavá data"), to zahrnuje zprávy e-mailem, Multimédia a další podobný obsah. Podle Gartneru je to ti, kteří se naučí, jak zvládnout data z nejrůznějších zdrojů informací.

Cisco Průzkum: velká data pomůže zvýšit rozpočty IT

Během studie (jara 2013), nazvaný Cisco Connected World Technology Zpráva, která byla provedena v 18 zemích nezávislým analytickou společností InsightExpress, 1800 vysokoškolských studentů byl dotazován a stejný počet mladých profesionálů ve věku 18 až 30 let. Průzkum byl proveden tak, aby zjistil úroveň připravenosti IT oddělení k realizaci projektu Velká data. a získat představu o souvisejících otázkách, technologických nedostatcích a strategické hodnotě těchto projektů.

Většina společností shromažďuje, píše a analyzuje data. Zpráva však říká, mnoho společností v souvislosti s velkými údaji čelí řadě problémů s komplexními a informačními technologickými technologickými technologií. Například 60 procent respondentů uznává, že velká data řešení mohou zlepšit rozhodovací procesy a zvýšit konkurenceschopnost, ale pouze 28 procent prohlásilo, že skutečné strategické výhody akumulovaných informací jsou již získány.

Více než polovina IT manažerů respondenti věří, že velké datové projekty pomohou zvýšit rozpočtové rozpočty v jejich organizacích, protože budou zvýšené požadavky na technologie, personální a odborné dovednosti. Zároveň více než polovina respondentů očekává, že tyto projekty zvýší rozpočty v jejich společnostech již v roce 2012. 57% je přesvědčeno, že velká data zvýší své rozpočty v příštích třech letech.

81 Procento respondentů uvedlo, že všechny (nebo alespoň některé) projekty velkých dat budou vyžadovat cloud computing. Tak, distribuce cloud technologie Může ovlivnit rychlost distribuce velkých datových řešení a na hodnoty těchto obchodních řešení.

Společnosti sbírají a používají data nejvíce odlišné typyjako je strukturovaný a nestrukturovaný. Zde je z toho, jaké zdroje dostávají data účastníků průzkumu (Cisco Connected World Technology Zpráva):

Téměř polovina (48%) IT manažerů předpovídá zdvojnásobení zatížení v síti v průběhu následujících dvou let. (To je obzvláště charakteristické pro Čínu, kde je 68 procent respondentů a Německa dodržena do pohledu - 60 procent). 23% respondentů čeká na tripling síťové zatížení v průběhu následujících dvou let. Zároveň pouze 40 procent respondentů prohlásilo svou připravenost k výbušnému nárůstu síťového provozu.

27% respondentů uznalo, že potřebují lepší politiky IT a opatření pro bezpečnost informací.

21 procent musí rozšířit šířku pásma.

Velká data otevírá nové příležitosti dříve, než IT oddělení zvýšit hodnotu a tvoří úzký vztah s obchodními jednotkami, což umožňuje zvýšit příjem a posílit finanční pozici společnosti. Big Data Projects činí divize se strategickým partnerem obchodních jednotek.

Podle 73 procent respondentů je to oddělení IT, které se stane hlavní lokomotivou implementace velké datové strategie. Zároveň zvažují respondenty, další oddělení se také připojí k realizaci této strategie. Především se týká oddělení financí (24% respondentů), výzkumu (20%), provozní (20%), inženýrství (19%), stejně jako marketingová oddělení (15%) a prodeje (14%) .

Gartner: Chcete-li spravovat velká data, jsou zapotřebí miliony nových pracovních míst.

Světové IT náklady do roku 2013 dosáhl 3,7 miliardy dolarů, což činí 3,8% více výdajů na informační technologie v roce 2012 (prognóza na konci roku je 3,6 miliardy dolarů). Segment velká data (Velká data) bude rozvíjet mnohem vyšší sazby, říká zpráva Gartner.

Do roku 2015 bude o 4,4 milionu pracovních míst v oblasti informačních technologií vytvořeno sloužit velkým údajům, z toho 1,9 milionu pracovních míst. Kromě toho každému takovému pracovišti bude znamenat vytvoření tří dalších pracovních míst mimo IT sféru, takže pouze ve Spojených státech v příštích čtyřech letech osoba bude pracovat na udržení informační ekonomiky.

Podle odborníků Gartner, hlavní problém je, že v průmyslu pro toto není dostatek talentů: jak soukromý, tak státní vzdělávací systém, například ve Spojených státech, ve Spojených státech nejsou schopni dodávat průmysl s dostatečným počtem kvalifikovaného personálu. Z výše uvedených nových pracovních míst v IT rámců bude zajištěna pouze jedna ze tří.

Analytici se domnívají, že role malování kvalifikovaného IT personálu by se měla převzít přímo do společnosti, která je v zoufalých potřebách, protože tito zaměstnanci pro ně projdou do nové informační ekonomiky budoucnosti.

2012

První skepticismus pro "velká data"

Analytici společnosti OVUM a Gartner společnosti naznačují, že pro módní v roce 2012 témata velká data může přijít čas osvobození od iluzí.

Termín "velká data", v této době, zpravidla označují stále rostoucí množství informací přicházejících v operačním režimu ze sociálních médií, ze sítí senzorů a dalších zdrojů, jakož i rostoucí sortiment nástrojů používaných pro data zpracování a identifikace důležitého podnikání na základě nich. - Tenpy.

"Vzhledem k humbukám (nebo navzdory tomu), pokud jde o myšlenku velkých údajů, výrobci v roce 2012 s velkou nadějí se podíval na tuto tendenci," řekl Tony Bayer, analytik OVum.

Bayer řekl, že DataSift provedl retrospektivní analýzu zmínku o velkých datech

Volkova Julia Sergeyevna, 4. ročník student, finanční univerzita pod vládou Ruská Federace, Kaluga větev, Kaluga [Chráněný emailem]

Velká data v moderním světě

Anotace. Umění jsou věnovány zavedení velkých datových technologií v naší moderní společnosti. Hlavními vlastnostmi velkých údajů byly zkoumány, hlavní aplikace, jako je bankovní sféra, maloobchod, soukromý a veřejný sektor, a dokonce i každodenní život. Studie odhalila nedostatky využívání velkých datových technologií. Je určena potřeba vytvořit normativní regulaci používání velkých údajů. Vítejte slova: velká data, banky, bankovní sféra, maloobchod, soukromý sektor, veřejný sektor.

Jako stupeň vyšetřování finančních prostředků, technologie informačních technologií různé směry moderní společnost Požadavky na jejich přizpůsobivost věnovacích úkolů se zvyšují, což naznačuje obrovské množství dat. Existují tyto informace, které nelze zpracovat tradičními metodami, včetně strukturovaných dat, médií a náhodných objektů. A pokud se s analýzou prvních stávajících technologií vyrovnává se stávajícími technologiemi, pak analýza druhého a třetího téměř zůstává nesnesitelná. Studie ukazují, že svazky mediálních jazyků, jako jsou výsledky sledování videa, letecké fotografování, digitální lékařské informace a náhodné objekty uložené v mnoha archivech a mrakech, zvyšuje rok. Studie velkých údajů je věnována pracím jak zahraničních i ruských vědců: Jamese Machera, Michael Chui, Toporkov V.v., Buduzko V.I. Podstatné skladování ve studiu této technologie se provádí hlavními světovými společnostmi, jako jsou: McKinsey & Company, Cnews Analytics, SAP, Oracle, IBM, Microsoft, Teradata a mnoho dalších. Oni-by-dělat zpracování a analýza dat a na základě velkých dat vytvářejí program na zařízení. Podle zprávy o institutu McKinsey: "Velká data je datová sada, jejichž velikost přesahuje možnosti typických databází Softwarové nástroje pro zachycení, skladování, správu a analýzu dat. " V podstatě se koncept velkých dat zahrnuje práci s informacemi o obrovském objemu a různých složení neustále aktualizovaných a umístěných v různých zdrojích, aby se zvýšila efektivita práce, vytváření nových produktů a zvyšování konkurenceschopnosti. Konzultační společnost Forrester dává stručné a poměrně jasné znění: "Velké datové metody a technologie, které odstraňují význam údajů o extrémním limitu praktičnosti." Dnes je největší odvětví dat charakterizován následujícími značkami: objemový objem, Akumulovaná databáze je velká množství informací. Rychlost .Velocity, tato funkce označuje, jak rostoucí míra akumulace dat (90% informací byla shromážděna za posledních 2 roky) .variety-diverzita, tj. Možnost simultánního zpracování, strukturované nestrukturovanými informacemi o variancích. Odborníci z obchodníků milovali, aby zde přidali své "V". KTOTO říká více o spolehlivosti (pravdivosti), jiní dodají, že velká datová technologie musí určitě těžit z podnikání (hodnota). Očekává se, že do roku 2020 akumulované množství informací o planetě bude dvakrát dvakát let dvojí. Hojnost dat vyvolává touhu používat je pro analýzu a předpovědi. Kolosální svazky vyžadují příslušné technologie. Dnes by společnosti měly zvládnout obrovské množství údajů v objemech, které jsou obtížné předložit, to vede k tomu, že tradiční databáze se nemohou vyrovnat s takovým úkolem, a to vede k potřebě implementovat velkou datovou technologii. Srovnávací charakteristika velkých dat a tradičních databází je proseje. Základem pro tvorbu této tabulky bylo studium Buduzko V. I. a Moskevskou výměnu. Tabulka 1 Srovnávací vlastnosti velkých dat a tradičních dat

Tradiční databáze produktivity

Jeden nebo více předmětu je využívána využitím rozsáhlé generické datové technologie. Zjistit předvolby zákazníků před analýzou rizikových kouzel. Rozsah tradičních databází se týká pouze jednoho nebo více, s takovými oblastmi musí být obsaženy strukturovanými údaji. Co se týče velkých údajů, rozsah jejich žádosti je rozsáhlá s obrovskými armaturami informacemi s komplexní strukturou. Podle výsledků studie Cnews Analytics předložených na obrázku 1, ruský trh přichází k takovému fenoménu jako velká data, který ukazuje zvýšení úrovně splatnosti společností. Mnoho firem se převádí do technologie velkých dat v důsledku objemu jejich zpracovaných dat, již nyní více než 44% vytváří asi 100 terabajtů, a ve 13% těchto objemů dat Express 500 terabajtů.

Obr. 1. Objemy informací zpracovaných ve firmách

Takové objemy nelze zpracovat tradičními databázemi, takže takové společnosti vidí řešení přechodu na velké údaje, které nejsou jednoduše jako zpracování obrovských objemů, ale také jako zvýšení konkurenceschopnosti, což zvyšuje loajalitu kupujícího k jejich výrobku a přitahuje nové. Nejaktivnějšími zákazníky těchto řešení jsou banky, telekomunikační a maloobchod, jejich procentní poměr je uveden na obrázku 2. Počet společností, které používají nebo budou připraveny k použití velkých údajů v dopravním odvětví a energii, průmysl je patrný. První příklady využití velkých údajů se objevily ve veřejném sektoru.

Obr.2. Sektorová struktura používání velkých dat

Pokud jde o západní vládu, rozptýlené odhady, je digitální ekonomika z 3% až 21% zemí HDP velkých dvaceti. Ruský gossektor dosud dosud nedosáhl významných výsledků při práci s velkými daty. Dnes v Rusku jsou tyto technologie většinou zájem o komerční podniky: obchodní sítě, banky, telekomunikační společnosti. Recepce ruských komunitních komunit, objem digitální ekonomiky VRF je pouze 1 bilion. třít. -OCline 1,5% Demontováno. URF je však obrovským potenciálem pro růst digitální ekonomiky. Navzdory malému termínu existence sektoru velkých dat existují také odhady efektivního využívání těchto technologií založených na reálných příkladech. Banky dnes jsou v průměru přibližně o 3,8 petobite, používají velké datové technologie k dosažení určitých úkolů: • kreditní karty pomocí datové karty;  Uvedení dat dat;  úvěrová data; 44% 16% 13% 7% 7% 20% 20% 20% 20% banktelecometlgossegorgiebie data zákazníka Data sběru;  Údaje o úsporách zákazníka. Banky tvrdí, že poté, co začali užívat velkou datovou technologií, byli schopni přilákat nové zákazníky, je lepší spolupracovat s novými i starými zákazníky a starými zákazníky a udržet si loajalitu. V roce 2015, Cnews Analytics průzkum mezi třicátými částmi největších ruských bank na kumulativní aktiva zjistit, která technologie velkých údajů, které používají a s jakými cíli. Ve srovnání s průzkumem roku 2014 se počet bank TOP30, který vykazoval o používání generických datových technologií, ale tato změna je spíše kvůli změně v top 30 složení. Obrázek 3 má porovnání srovnání průzkumu 2015 ve srovnání s rokem 2014, stejně průzkum Kiryanovaya A.

Obr. 3. Použití velkých dat Top30 ruských bank

Podle odhadů IBS, 80% bank, které pozitivně odpověděly, implementovalo velké datové zařízení softwarové vybavení pro ukládání a zpracování dat. Tato řešení obvykle působí jako analytický nebo transakční úložiště, jejíž hlavní výhodou je dobrým výkonem při práci s velkými svazky dat. Praxe využití velkých dat v ruských bankách je však ve fázi stát se. Důvodem takové pomalé adaptace v Rusku je ukázána dutinou zákazníků na nové technologie. Necítí důvěra, že velká datová technologie pomůže řešit problémy v plném rozsahu. A to je to, co americký trh se týká, že banky již nahromadily 1 údaje o zkouškách, které mohou být porovnány s 275 miliardami mp3. Počet zdrojů, odkud, z nichž informace pocházejí, můžete zvýraznit klasiku:  Zákazníci zákazníků zákazníků banky; • Zákazníci zákazníků zákazníků zákazníků; • Zákaznická sociální sítě;  Operace operací kreditní karty jiné , konstrukční cesty obchodní místnosti, řádně nakládat ze zboží, plánování plánu, a nakonec zvýšení prodeje. Ve velkých datech, samotný prodejní mechanismus je postaven na velkých údajích: uživatelé nabízejí produkty na základě předchozích nákupů a jejich osobní preference, informace o nichž se shromažďují například v sociálních sítích. V obou případech pomáhá analýza velkých dat snížit náklady, zvýšit loajalitu zákazníků a pokrývat velké publikum. Jako rozvoj obchodního potenciálu společností, tradiční databáze přestane splnit rostoucí obchodní požadavky, díky kterému systém nemůže poskytovat odpovídající účetní účetnictví. Otáčením na velké údaje, nové technologie vám umožní optimalizovat správu přepravy, dosáhnout relevance údajů a efektivitu jejich zpracování důsledků rozhodování o řízení, rychle vytvářet zprávy o řízení. Celkové množství akumulovaných dat je více než 100 exbutte, s pouze walmartem s využitím velkých datových procesů 2,5 petabajtů dat za hodinu. Při použití velkých datových technologií se 60% zvyšuje provozní ziskovost, stejně jako statistika Hadoop po implementaci velkých dat, analytický výkon se zvyšuje na léčbu 120 algoritmů a zisk roste na 710%. Pokud zohledníte v úvahu Ruským maloobchodem, pak zde jsou velká data začínají získat hybnost, protože vypouštění zpracování informací je velmi odlišné. Například je 18krát nižší než v Číně a celá oběh dat, která je vyráběna v online tlačítkách 4,5 krát méně než jeden obchod Amazon. Současně, počet online obchodů v Rusku, které používají velká data nižší než 40 tisíc, zatímco Evropa, počet takových obchodů je více než 550 tisíc. Co charakterizuje ruský maloobchodní trh, jak je stále vyvíjet a není plně vytvořen. Co se týče našeho každodenního života, technologie velkých údajů se zde používají, o kterém jsme ani nemysleli asi 1 milion skladeb každý den, a to je asi 1,5 ~ 2 Petabyty, procesy Shazam, hudební služby, po celém světě, a na tom Pak hudební výrobci předpovídají popularitu umělce. Velká data se také používají k řešení informací o kreditní kartě, jako je MasterCard a Visa. Tak, 65 miliard transakcí pro rok s pomocí 1,9 miliard karet ve 32 milionech obchodních firem procesů MasterCard předpovídat trendy obchodování. Každý den lidé píší v sociálních sítích po celém světě, jako je Twitter a Facebook, na 19 terabajtech dat. Ukládají a zpracovávají fotografie, psát, odesílat zprávy a tak dále. Infrastruktura také využívá velké datové technologie, z trolejbusů min a raket. Tak, v Londýně Metro každý den, turnikety zaznamenává přibližně 20 milionů průchodů, v důsledku analýzy provedených na základě velkých datových technologií, bylo identifikováno 10 všech druhů epicentrů, což je také zohledněno s dalším rozvojem metra. Nepochybně, rozmanitost a výše údajů vyplývajících ze všech druhů interakcí je mocná obchodní základna pro budování a objasnění prognóz, identifikace vzorů, hodnocení účinnosti atd. Celkem však existují asistenty, které také potřebují k tomu, aby byly v úvahu. Navzdory explicitním a potenciálním výhodám využití velkých údajů má jejich použití jeho nevýhody, které jsou primárně spojeny s velkými množstvím informací, různé metody přístupu k němu a s často nedostatečným poskytováním zdrojů. Funkce zabezpečení informací v organizacích. Problémy, které se týkají použití obecných dat, jsou uvedeny na obrázku 4.

Obr. 4. Problémy s využitím velkých dat

Všechny tyto problémy vedou k tomu, že mnoho společností s Lags zavádějí velké datové technologie, protože při práci se třetími stranami, oni sami vznikají problém zveřejnění uvnitř, které společnost nemohla zveřejnit pouze prostředky. Podle mého názoru, Nejdůležitějším krokem na cestě úplného zavedení technologií na základě velkých údajů musí být legislativní aspekt. Nyní existují zákony, které omezují sběr, používání, ukládání určitých typů osobních údajů, ale neomezují úplné údaje, proto by pro ně měly existovat zvláštní právní předpisy. Za účelem rychle se mění a nových zákonů musí společnosti splňovat počáteční inventář příslušných regulačních právních aktů a pravidelně aktualizovat tento seznam. Navzdory výše uvedeným nedostatkům, jako zkušenosti západních zástupců ukazuje, velká data Technologie pomáhá úspěšně řešit jako moderní obchodní cvičení a zvyšování konkurenceschopnosti a cílů spojených přímo s životem lidí. Ruské společnosti jsou již na způsobu zavedení velkých datových technologií jak ve výrobní sféře a veřejnosti, protože množství informací každý rok se zvyšuje téměř dva. Postupem času se mnoho oblastí našeho života změní pod vliv velkých dat.

Odkazy na zdroje1.Budzkov. I. Vysoká dostupnost systémů a velkých dat // Velká data v národním ekonomiku roku 2013. P. 1619.2. Corotkova T. "EMC Data Lake 2.0 - Přechod na analytik velkých dat a digitální ekonomiky" http: // bigdata .cnews.ru / Novinky / Linka / 20151203_emc_data_lake_20_pomozhet_perejti_k_analitike.3.Kyrianova A. "Velká data se nestaly hlavním proudem v ruských bankách" http://www.cnews.ru/news/top/bolshie_dannye_ne_stali_mejnstrimom 4.cnews "Infigure: Velká data přišla do Ruska "http: //bigdata.cnews.ru/articleshi/Infografika_bolshie_dannyee_prishli_v_rossiyu.5.cnews" infografiky: jak maloobchodní využití velkých dat "http://bigdata.cnews.ru/articles/infika_kak_roznitsa_ispolzuet neexistují žádná zvláštní legislativa Ve světě v souvislosti s velkými údaji by měly být zamaskované s cílem zachovat zdrojové zdroje dat těchto společností, musí být přesvědčeny, že všechny požadavky na bezpečnost dat jsou sledovány a podporovány implementací velkých datů Zda vytvořit nebo detekovat dříve důvěrné správu informací. Zachování požadavků na zabezpečení dat pro zabezpečení datového štítku jménem Risk6.cnews "Infografika: BigData Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka.7.cnews Klíčová slova mohou být velká data v bankách »http://bigdata.cnews.ru/articles/inflografika_chto_mogut_bolshie_dannye.8 Bigdata). http://www.tadviser.ru/index.php/Statimateschet_data_(big_data) .10.bigdata-elektřina XXIVEK http://bit.samag.ru/archive/article/1463.11.1.mckinsey globální institut "bigdata: další hranice Pro inovace, produktivita Compettionand »(červen 2011).