應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

2019年大數(shù)據(jù)的10大發(fā)展趨勢

2019-02-22 10:51 企業(yè)網(wǎng)D1Net

導(dǎo)讀:如今,人們尋求獲得更多的數(shù)據(jù)有著充分的理由,因?yàn)閿?shù)據(jù)分析推動了數(shù)字創(chuàng)新。然而,將這些龐大的數(shù)據(jù)集轉(zhuǎn)化為可操作的洞察力仍然是一個(gè)難題。而那些獲得應(yīng)對強(qiáng)大數(shù)據(jù)挑戰(zhàn)的解決方案的組織將能夠更好地從數(shù)字創(chuàng)新的成果中獲得經(jīng)濟(jì)利益。

如今,人們尋求獲得更多的數(shù)據(jù)有著充分的理由,因?yàn)閿?shù)據(jù)分析推動了數(shù)字創(chuàng)新。然而,將這些龐大的數(shù)據(jù)集轉(zhuǎn)化為可操作的洞察力仍然是一個(gè)難題。而那些獲得應(yīng)對強(qiáng)大數(shù)據(jù)挑戰(zhàn)的解決方案的組織將能夠更好地從數(shù)字創(chuàng)新的成果中獲得經(jīng)濟(jì)利益。

考慮到這個(gè)基本前提,以下是組織在2019年應(yīng)該關(guān)注的大數(shù)據(jù)的10個(gè)發(fā)展趨勢:

1.數(shù)據(jù)管理仍然很難

大數(shù)據(jù)分析有著相當(dāng)明確的重要思想:找到隱藏在大量數(shù)據(jù)中的信息模式,訓(xùn)練機(jī)器學(xué)習(xí)模型以發(fā)現(xiàn)這些模式,并將這些模型實(shí)施到生產(chǎn)中以自動對其進(jìn)行操作。需要清理數(shù)據(jù),并在必要時(shí)進(jìn)行重復(fù)。

然而,將這些數(shù)據(jù)投入生產(chǎn)的現(xiàn)實(shí)要比看上去困難得多。對于初學(xué)者來說,收集來自不同孤島的數(shù)據(jù)很困難,需要提取、轉(zhuǎn)換和加載(ETL)和數(shù)據(jù)庫技能。清理和標(biāo)記機(jī)器學(xué)習(xí)培訓(xùn)的數(shù)據(jù)也需要花費(fèi)大量的時(shí)間和費(fèi)用,特別是在使用深度學(xué)習(xí)技術(shù)時(shí)。此外,以安全可靠的方式將這樣的系統(tǒng)大規(guī)模投入生產(chǎn)需要另外一套技能。

出于這些原因,數(shù)據(jù)管理仍然是一個(gè)巨大的挑戰(zhàn),數(shù)據(jù)工程師將繼續(xù)成為大數(shù)據(jù)團(tuán)隊(duì)中最受歡迎的角色之一。

2.數(shù)據(jù)孤島繼續(xù)激增

這個(gè)預(yù)測并不困難。在五年前的Hadoop開發(fā)熱潮中,人們認(rèn)為可以將所有數(shù)據(jù)(包括分析和事務(wù)工作負(fù)載)整合到一個(gè)平臺上。

出于各種原因,這個(gè)想法從未真正實(shí)現(xiàn)過。其面臨的最大挑戰(zhàn)是不同的數(shù)據(jù)類型具有不同的存儲要求。關(guān)系數(shù)據(jù)庫、圖形數(shù)據(jù)庫、時(shí)間序列數(shù)據(jù)庫、HDF和對象存儲都有各自的優(yōu)缺點(diǎn)。如果開發(fā)人員將所有數(shù)據(jù)塞進(jìn)一個(gè)適合所有數(shù)據(jù)的數(shù)據(jù)湖中,他們就無法最大限度地發(fā)揮其優(yōu)勢。

在某些情況下,將大量數(shù)據(jù)集中到一個(gè)地方確實(shí)有意義。例如,像S3這樣的云數(shù)據(jù)存儲庫為企業(yè)提供了靈活且經(jīng)濟(jì)高效的存儲,而Hadoop仍然是非結(jié)構(gòu)化數(shù)據(jù)存儲和分析的經(jīng)濟(jì)高效的存儲。但對于大多數(shù)公司而言,這些只是必須管理的額外孤島。當(dāng)然,它們是重要的孤島,但它們不是唯一的。

而在缺乏強(qiáng)大集權(quán)的情況下,數(shù)據(jù)倉庫將會繼續(xù)激增。

3. 流媒體分析的突破性的一年

組織處理新數(shù)據(jù)越快,業(yè)務(wù)發(fā)展就會越好。這是實(shí)時(shí)分析或流式分析背后的推動力。但組織一直面臨的挑戰(zhàn)是要真正做到這一點(diǎn)非常困難,而且成本也很高,但隨著組織的分析團(tuán)隊(duì)的成熟和技術(shù)的進(jìn)步,這種情況正在發(fā)生變化。

NewSQL數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)網(wǎng)格和專用流分析平臺圍繞通用功能進(jìn)行融合,這需要對輸入數(shù)據(jù)進(jìn)行超快處理,通常使用機(jī)器學(xué)習(xí)模型來自動化決策。

將它與Kafka、Spark和Flink等開源流式框架中的SQL功能相結(jié)合,組織就可以在2019年獲得真正的進(jìn)步。

4.數(shù)據(jù)治理不善將帶來風(fēng)險(xiǎn)

有些人將數(shù)據(jù)稱之為“新石油”,也被稱為“新貨幣”。無論是什么樣的比喻,大家都認(rèn)為數(shù)據(jù)具有價(jià)值,并且如果對此不重視將會帶來更大的風(fēng)險(xiǎn)。

歐盟通過去年頒布的GDPR法規(guī)闡明了數(shù)據(jù)治理不善的財(cái)務(wù)后果。雖然美國還沒有類似的法律,但美國公司仍然必須遵守由美國聯(lián)邦、各州等創(chuàng)建的80個(gè)不同的數(shù)據(jù)制授權(quán)法規(guī)。

數(shù)據(jù)泄露正在引發(fā)問題。根據(jù)Harris Poll公司進(jìn)行的一項(xiàng)在線調(diào)查,2018年有近6000萬美國人受到身份盜竊的影響。這比2017年增長了300%,當(dāng)時(shí)只有1500萬人表示受到了影響。

大多數(shù)組織已經(jīng)意識到無序發(fā)展的大數(shù)據(jù)時(shí)代即將結(jié)束。而很多國家和地區(qū)的政府對數(shù)據(jù)濫用或隱私泄露行為不再容忍。

5.隨著技術(shù)的發(fā)展,技能也在轉(zhuǎn)變

人力資源通常是大數(shù)據(jù)項(xiàng)目中的最大成本,因?yàn)楣ぷ魅藛T最終構(gòu)建并運(yùn)行大數(shù)據(jù)項(xiàng)目,并使其發(fā)揮作用。無論使用何種技術(shù),找到具有合適技能的人員對于將數(shù)據(jù)轉(zhuǎn)化為洞察力至關(guān)重要。

而隨著技術(shù)的進(jìn)步,技能組合也是如此。在2019年,人們可以看到企業(yè)對于神經(jīng)網(wǎng)絡(luò)專業(yè)人才的巨大需求。在數(shù)據(jù)科學(xué)家(而不是人工智能專家)的技能中,Python仍然在語言中占主導(dǎo)地位,盡管對于R、SAS、Matlab、Scala、Java和C等語言還有很多工作要做。

隨著數(shù)據(jù)治理計(jì)劃的啟動,對數(shù)據(jù)管理人員的需求將會增加。能夠使用核心工具(數(shù)據(jù)庫、Spark、Airflow等)的數(shù)據(jù)工程師將繼續(xù)看到他們的機(jī)會增長。人們還可以看到企業(yè)對機(jī)器學(xué)習(xí)工程師的需求加速增長。

然而,由于自動化數(shù)據(jù)科學(xué)平臺的進(jìn)步和發(fā)展,組織的一些工作可以通過數(shù)據(jù)分析師或“公民數(shù)據(jù)科學(xué)家”來完成,因?yàn)楸娝苤瑪?shù)據(jù)和業(yè)務(wù)的知識和技能可能會讓組織在大數(shù)據(jù)道路上走得更遠(yuǎn),而不是統(tǒng)計(jì)和編程。

6.深度學(xué)習(xí)變得更加深入

深度學(xué)習(xí)的發(fā)展為人工智能的應(yīng)用提供了更多的動力,在2019年沒有任何減緩的跡象。組織將繼續(xù)嘗試深度學(xué)習(xí)框架,如TensorFlow、Caffe、Keras、PyTorch和MXnet,以期將大量數(shù)據(jù)集實(shí)現(xiàn)貨幣化。

組織將擴(kuò)展深度學(xué)習(xí),超越其最初的用例,如計(jì)算機(jī)視覺和自然語言處理(NLP),并找到實(shí)現(xiàn)強(qiáng)大技術(shù)的新的和創(chuàng)造性的方法。大型金融機(jī)構(gòu)已經(jīng)發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)算法比“傳統(tǒng)”機(jī)器學(xué)習(xí)方法更能發(fā)現(xiàn)欺詐行為,并且將在2019年繼續(xù)探索新的用例。

這也將支持對GPU的需求,GPU是培訓(xùn)深度學(xué)習(xí)模型的首選處理器。目前還不清楚是否有新的處理器類型,包括ASIC、TPU和FPGA。但是,顯然還需要更快的培訓(xùn)和推理。

然而,深度學(xué)習(xí)生態(tài)系統(tǒng)將保持相對年輕,缺乏通用平臺將使其成為真正專家的領(lǐng)域。

7.“Special K”擴(kuò)大了足跡

軟件需要運(yùn)行一些東西。用于提供通用基礎(chǔ)的操作系統(tǒng),但現(xiàn)在開發(fā)人員的目標(biāo)要低一點(diǎn):Kubernetes。

Kubernetes由Google公司開發(fā),用于管理和協(xié)調(diào)云中的虛擬化Linux容器,在IT行業(yè)中,它已成為大數(shù)據(jù)生態(tài)系統(tǒng)中最熱門的技術(shù)之一。隨著多云和混合部署變得越來越普遍,Kubernetes就是將它們整合在一起的粘合劑。

以前編寫Hadoop上運(yùn)行的軟件的大數(shù)據(jù)軟件供應(yīng)商現(xiàn)在正在編寫Kubernetes上運(yùn)行的軟件,這至少讓他們進(jìn)入了前臺。支持Kubernetes軟件已經(jīng)成為軟件供應(yīng)商(包括Hadoop供應(yīng)商)的首要需求。

8. 難以忽視的云計(jì)算

云計(jì)算的規(guī)模越來越大。2018年,全球三大公共云供應(yīng)商的業(yè)務(wù)增長率接近50%。云計(jì)算供應(yīng)商提供了一系列大數(shù)據(jù)工具和技術(shù),更不用說用于存儲所有數(shù)據(jù)的廉價(jià)存儲,因此用戶很難抵御云計(jì)算的誘惑。

2019年,小型企業(yè)和初創(chuàng)企業(yè)將被主要的公共云提供商提供的服務(wù)所吸引,這些云計(jì)算提供商正在投入巨資建設(shè)隨時(shí)可運(yùn)行的大數(shù)據(jù)平臺,提供自動化機(jī)器學(xué)習(xí)、分析數(shù)據(jù)庫和實(shí)時(shí)流分析服務(wù)。

即使成本方面并不那么吸引人,大型企業(yè)也難以抗拒云計(jì)算所帶來的好處。然而,將業(yè)務(wù)鎖定在單一云計(jì)算供應(yīng)商,這讓大型企業(yè)擔(dān)心面臨將所有雞蛋放在一個(gè)籃子中的風(fēng)險(xiǎn)。

9.新技術(shù)將會出現(xiàn)

當(dāng)今推動創(chuàng)新的許多主要大數(shù)據(jù)框架和數(shù)據(jù)庫都是由全球網(wǎng)絡(luò)巨頭創(chuàng)建的,并作為開源應(yīng)用發(fā)布。好消息是可能將加快技術(shù)創(chuàng)新。

在2019年,大數(shù)據(jù)從業(yè)者在他們的創(chuàng)作中會盡可能保持靈活性。雖然出于性能原因,將應(yīng)用程序綁定到某項(xiàng)技術(shù)可能會很有誘惑力,但是當(dāng)更好、更快地出現(xiàn)這種情況時(shí),這可能會讓組織感到困擾。

盡可能多地保持應(yīng)用程序“松散耦合但緊密集成”,因?yàn)樽罱K必須將其拆分并重新構(gòu)建。

10.智能設(shè)備無處不在

如今,智能設(shè)備無處不在,并且不斷收集數(shù)據(jù)。而在消費(fèi)者需求的推動下,智能設(shè)備正以驚人的速度增長。智能設(shè)備生態(tài)系統(tǒng)正在亞馬遜Alexa和谷歌智能助理兩大領(lǐng)先平臺上嶄露頭角,為消費(fèi)者提供了將遠(yuǎn)程訪問和人工智能融入從照明、暖通空調(diào)系統(tǒng)、門鎖、家用電器等各個(gè)行業(yè)領(lǐng)域的機(jī)會。

由于超高速5G無線網(wǎng)絡(luò)即將推出,消費(fèi)者將能夠與眾多設(shè)備進(jìn)行交互,并且無論在哪里,都會提供新的個(gè)性化服務(wù)。

2019年,大數(shù)據(jù)將在多個(gè)方面取得進(jìn)展。雖然大數(shù)據(jù)和人工智能的發(fā)展仍然存在大量的技術(shù)、法律和道德障礙,但潛在的好處巨大,不容忽視。