Giriş
Büyük Veri kavramı ile anlatılmak istenilen, büyük boyutlu veriden çok daha fazlasıdır. Gartner tarafından 2012 yılında yayınlanan “Büyük veri, gelişmiş karar verme, iç görü keşfi veya süreç optimizasyonu sağlamak üzere yeni işleme biçimleri gerektiren (geleneksel yöntem ve araçlarla baş edilemeyecek ölçüde) büyük hacim, yüksek hız ve/veya çok çeşitlilik içeren bilgi varlıklarıdır.” Tanımı incelendiğinde, büyük veriyi nitelemekte kullanılan ilk 3 V öne çıkmaktadır:
Volume / Hacim: Verinin boyutunun büyük olması.
Velocity / Hız: Verinin üretilme ve elde edilme (akma) hızının yüksek olması.
Variety / Çeşitlilik: Verinin farklı yapılarda olması.
Dördüncü V’nin bu tanım içinde bulunduğu ise bir parça daha sonra anlaşılmıştır:
Value / Değer: Büyük veriden elde edilecek bilgi ve sonuçların değerli olması.
Büyük Verinin analiz edilebildiği her alanda
neden-sonuç ilişkilerini anlama,
yüksek doğrulukta kestirim,
bireylerin davranış ve olayların oluş desenlerini belirleme,
yaklaşmakta olan olayları önceden tahmin,
başlamış olayları anında ortaya çıkarma,
değişen koşullara karşı hızlı tepki verme
gibi yeteneklere sahip olunabilir. Büyük verinin değeri de buradan gelmektedir.
Büyük veri yöntem ve araçları da, özellikle geleneksel yöntem ve araçların yetersiz kaldığı bu 4 V ile ilgili açılardan yarar sağlamayı hedeflemektedirler. Bunlar kabaca; farklı kaynaklardan gelen veriyi toplama; elde edilen veriyi temizleme, birleştirme ve hazırlama; veriyi saklama; büyük boyutlu veriyi işleme ve analiz; akan veriyi işleme ve analiz; verinin içinde bulunan bağlantıları anlama, iç görü keşfi vb. amaçlarla makine öğrenmesi; değerleri sonuçları sunma için görselleştirme yöntem ve araçları olarak sıralanabilirler. Büyük veri kavramını tanımlamakta kullanılan (Veracity / Doğruluk, Variability / Değişkenlik, Validity / Geçerlilik gibi) daha birçok V daha ortaya konulmuş olmakla birlikte; günümüz büyük ver araçları henüz bu alanlara fazla girmemektedir.
Günümüzde büyük veri araçları denildiğinde büyük veriyi saklamakta kullanılan dağıtık dosya sistemleri ve NoSQL veri tabanları ile büyük veri işleme ve analizde kullanılan MapReduce tabanlı yaklaşımlar ilk akla gelenler arasında yer almaktadırlar. Özellikle büyük boyutlu veri üzerinde analiz yaparken, birim analiz işlemlerinin de karmaşık ve zaman alıcı olması durumunda YBH (HPC) kaynaklarının büyük veri analizinde kullanılması yaklaşımına Yüksek Başarımlı Veri Analizi (High-Performance Data Analysis – HPDA) ismi verilmekte ve Büyük Veri ile YBH alanlarının kesişimi olarak görülmektedir.