"大數(shù)據"是一個體量特別大,數(shù)據類別特別大的數(shù)據集,并且這樣的數(shù)據集無法用傳統(tǒng)數(shù)據庫工具對其內容進行抓取、管理和處理。 "大數(shù)據"首先是指數(shù)據體量(volumes)?大,指代大型數(shù)據集,一般在10TB?規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數(shù)據集放在一起,已經形成了PB級的數(shù)據量;其次是指數(shù)據類別(variety)大,數(shù)據來自多種數(shù)據源,數(shù)據種類和格式日漸豐富,已沖破了以前所限定的結構化數(shù)據范疇,囊括了半結構化和非結構化數(shù)據。接著是數(shù)據處理速度(Velocity)快,在數(shù)據量非常龐大的情況下,也能夠做到數(shù)據的實時處理。最后一個特點是指數(shù)據真實性(Veracity)高,隨著社交數(shù)據、企業(yè)內容、交易與應用數(shù)據等新數(shù)據源的興趣,傳統(tǒng)數(shù)據源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。