免费a一毛片,有码毛片,好爽又高潮了毛片免费下载16禁,黄色一级免费网站,毛片二区,一级毛片视频免费,性a视频

大數據時(shí)代數據管理技術(shù)研究綜述論文

時(shí)間:2023-03-04 11:24:03 論文 我要投稿
  • 相關(guān)推薦

大數據時(shí)代數據管理技術(shù)研究綜述論文

  隨著(zhù)計算機技術(shù)和網(wǎng)絡(luò )的快速發(fā)展,半結構化和非結構化等類(lèi)型數據成幾何倍增長(cháng),學(xué)習和使用大數據管理技術(shù)順應時(shí)代發(fā)展潮流。本文從數據管理技術(shù)的發(fā)展進(jìn)程出發(fā),介紹了人工管理方式、文件系統管理方式、數據庫管理方式三種階段的管理方式。然后詳細介紹了關(guān)系數據庫和NoSQL非關(guān)系數據庫,并且將兩者從三種角度進(jìn)行了對比。最后對未來(lái)大數據時(shí)代信息管理方式作出了展望。

大數據時(shí)代數據管理技術(shù)研究綜述論文

  引言

  隨著(zhù)計算機和網(wǎng)絡(luò )技術(shù)的快速發(fā)展,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò )、電子商務(wù)、云計算等各種新興服務(wù)的興起,極大拓展了互聯(lián)網(wǎng)的疆界和應用領(lǐng)域,隨之產(chǎn)生的是海量的數據,這些數據不僅來(lái)源的渠道多樣,并且數據規模和數據種類(lèi)也是快速的增長(cháng),大數據時(shí)代已經(jīng)來(lái)臨。大數據時(shí)代,無(wú)法將海量數據存儲和管理在一臺或者有限數目的服務(wù)器內,更無(wú)法借助有限的計算機去處理和管理大數據。因此,如何利用現有的資源應對當前數據量的快速增長(cháng),實(shí)現對大數據的有效、便捷、安全的管理,是當前國內外關(guān)于數據管理和數據分析亟需解決的問(wèn)題。

  1 數據管理技術(shù)的發(fā)展

  數據管理是指對各種類(lèi)型的數據進(jìn)行采集、存儲、分類(lèi)、計算、加工、檢索和傳輸的過(guò)程。隨著(zhù)計算機和網(wǎng)絡(luò )技術(shù)的不斷發(fā)展和改進(jìn),數據庫管理技術(shù)也在不斷的更新?lián)Q代。到目前階段為止,數據管理技術(shù)主要發(fā)展歷程經(jīng)歷了以下階段:人工數據管理方式、文件系統管理方式和數據庫系統管理方式。

  1.1 人工數據管理方式

  20世紀50年代中期,計算機初期被應用于科學(xué)計算方面,因此,早期的數據處理都是手工完成的。數據存儲只有磁帶、卡片和紙帶等低速存儲設備。既沒(méi)有操作系統,也沒(méi)有管理數據的專(zhuān)門(mén)軟件,此階段管理的數據,不能進(jìn)行共享,且沒(méi)有獨立性,數據純粹面向應用,服務(wù)于應用。

  1.2 文件系統管理方式

  20世紀60年代中期,隨著(zhù)計算機進(jìn)一步的發(fā)展,不僅用于科學(xué)計算,而且更多地用于信息處理。對于數據存儲,有了磁盤(pán)、磁鼓等存儲設備。操作系統和高級語(yǔ)言的出現為文件系統管理提供了可能。此階段的文件系統,是按照相應的規則將數據組織成一個(gè)獨立的命名文件。這一時(shí)期的數據特點(diǎn)是:數據可以長(cháng)期存儲在磁盤(pán)上、有專(zhuān)門(mén)的軟件進(jìn)行管理維護、數據不再獨立存在,數據不止服務(wù)于應用,在一定程度上,數據的共享性得到了提高。

  1.3 數據庫系統管理方式

  20世紀60年代后期,數據庫系統管理方式逐漸形成并具有一定的規模。由于磁盤(pán)技術(shù)的不斷進(jìn)步和發(fā)展,低成本、高速的硬盤(pán)占領(lǐng)了市場(chǎng),為新的數據管理技術(shù)提供了產(chǎn)生的必要條件。對應的軟件技術(shù)也有一定的發(fā)展。數據庫系統是由計算機的軟硬件資源共同組成,實(shí)現了數據的動(dòng)態(tài)、有規則、獨立存儲。如圖1所示。

  2 大數據管理技術(shù)

  大數據是指無(wú)法在可承受的時(shí)間范圍內用常規軟件工具進(jìn)行捕捉、管理和處理的數據集合。歸結為四個(gè)特點(diǎn)就是四“V”,即大量(Volume)、高速(Velocity)和多樣性(Variety)和價(jià)值(Value)。大數據首先體現在數據量上:全球著(zhù)名咨詢(xún)機構IDC(國際文獻資料中心)在2006年估計全世界產(chǎn)生的數據量是0.18ZB(1ZB=100萬(wàn)PB),而截至2011年這個(gè)數字已經(jīng)提升了一個(gè)數量級,達到1.8ZB。這種數據產(chǎn)生的速度仍在增長(cháng),預計2015年將達到8ZB。隨著(zhù)數據量的增長(cháng),得到龐大的數據源和樣本數據后,人們并不能容忍對于這些龐大的數據處理響應時(shí)間。因此,大數據需要在數據量提高的前提下,數據的處理和響應能力進(jìn)行提高,從而確保數據延遲可以在人們的接受范圍之內。因此數據處理要得到有效的保證,那如何存儲和組織管理這些海量數據,值得我們去探索和研究。

  2.1 關(guān)系型數據庫(RDBMS)

  2.1.1 關(guān)系數據庫的提出

  20世紀70年代初,IBM工程師Codd發(fā)表了一篇論文“A Relational Model of Large Shared DataBanks”,隨之關(guān)系數據庫時(shí)代宣告到來(lái)。關(guān)系數據庫管理系統(Relational Database ManagementSystem,簡(jiǎn)稱(chēng)RDBMS)就是基于上述的論文而被設計出來(lái)的。在關(guān)系數據庫之前的系統主要有基于層次模型的層次數據庫、基于網(wǎng)狀模型的網(wǎng)狀數據庫等。以上幾種數據庫的主要不足是數據模型是很難被用戶(hù)所理解,并且編寫(xiě)的軟件與數據模式依賴(lài)性比較高。Codd提出的關(guān)系數據模型是基于表格、行、列、屬性等基本概念,將現實(shí)世界中的各類(lèi)實(shí)體及其關(guān)系映射到表格上,并且還為關(guān)系模型建立了關(guān)系代數運算。

  2.1.2 關(guān)系數據庫的應用

  關(guān)系數據庫系統最初主要是應用于事務(wù)處理領(lǐng)域。隨著(zhù)數據的不斷積累增長(cháng),人們需要對數據進(jìn)行分析操作,提取出有用的信息以支持決策等等。這些分析操作主要包括簡(jiǎn)單匯總、聯(lián)機分析處理(online analytical processing,簡(jiǎn)稱(chēng)OLAP,主要是多維分析)、統計分析、數據挖掘等。有些分析處理需要對數據集進(jìn)行多次的掃描,分析查詢(xún)執行的時(shí)間以分鐘或者小時(shí)計。與普通行存儲模式不同,一些學(xué)者提出了列存儲模式(columnar storage model)。列存儲模型有行存儲沒(méi)有的優(yōu)勢特征,當查詢(xún)只涉及關(guān)系的某些數據列時(shí),不會(huì )造成無(wú)關(guān)數據的提取,減少I(mǎi)/O操作,提高了查詢(xún)的效率。圍繞RDBMS,形成了一個(gè)完整的生態(tài)體系(廠(chǎng)家、技術(shù)、產(chǎn)品、服務(wù)等),提供了包括數據采集、數據管理、數據查詢(xún)與分析、數據展現(即可視化)等技術(shù)和產(chǎn)品,創(chuàng )造了巨大的數據庫產(chǎn)業(yè),為社會(huì )發(fā)展做出了巨大貢獻。

  2.1.3 關(guān)系數據庫的不足

  大數據時(shí)代的到來(lái),關(guān)系型數據庫并未做好全面的準備,出現了諸多問(wèn)題,主要問(wèn)題有以下幾個(gè)方面:

  (1)關(guān)系模型不容易組織和管理所有類(lèi)型多樣的數據,例如在關(guān)系數據庫里,管理大規模的高維時(shí)空數據、大規模的圖像數據等都顯得力不從心。

  (2)如何才能通過(guò)大量節點(diǎn)的并行操作實(shí)現大規模數據的高速處理,仍然值得我們去探索。在關(guān)系數據庫上進(jìn)行大規模的事物處理,不但需要解決查詢(xún)的性能問(wèn)題,更需要解決修改操作的性能問(wèn)題,大量的事物處理,需要高效完成,才能保證數據的持久性和可靠性。

  (3)在關(guān)系數據庫上進(jìn)行數據的復雜分析,能夠使用的是統計分析和數據挖掘軟件包;現有的統計分析、數據挖掘軟件包能夠處理的數據量受限于內存開(kāi)銷(xiāo),并行化程度不高。從數據庫中提取數據,注入到分析軟件中進(jìn)行分析,在大數據時(shí)代,這樣的數據移動(dòng)以及不合適了。通過(guò)數據的劃分和并行計算,實(shí)現高性能的數據分析成為必然選擇。

  從中可以得出,現如今的數據管理已經(jīng)不是簡(jiǎn)單的關(guān)系型數據庫可以解決的,關(guān)系型數據庫在一定程度上只能解決初期的大數據管理。

  2.2 NoSQL數據庫管理技術(shù)

  隨著(zhù)時(shí)代的發(fā)展,傳統的關(guān)系型數據庫已經(jīng)無(wú)法滿(mǎn)足人們對于更高的并發(fā)讀寫(xiě)、海量數據的高效存儲和訪(fǎng)問(wèn)以及高擴展性和可用性等需求,出現了NoSQL數據技術(shù)。

  對于NoSQL技術(shù),學(xué)術(shù)界有兩種對其的解釋?zhuān)?1)“Non-Relational”,也就是非關(guān)系型數據庫;(2)“Not Only SQL”,即數據庫不僅僅是SQL。當前第二種解釋比較流行。NoSQL數據庫是指數據模型定義不明確的非關(guān)系型數據庫。NoSQL數據庫具有靈活的數據模型、高可擴展性和美好的發(fā)展前景。下面主要介紹NoSQL的幾種管理技術(shù)。

  NoSQL數據庫普遍采用的數據管理方式有四種:Key-Value存儲方式、BigTable存儲方式、Document存儲方式以及Graph存儲方式。2010年Rick Cattell對各種典型NoSQL系統從各個(gè)方面做了比較系統的分析。

  2.2.1 基于Key-Value存儲的NoSQL技術(shù)

  Key-Value是NoSQL系統比較常用的數據存儲方式,每個(gè)Key值對應每一個(gè)任意類(lèi)的數據值,對應的對象可以是結構化數據,也可以是文檔。Key-Value存儲的思想是將抽取唯一可以確定數據的特征屬性,作為key,并將作為value對象。基于Key-Value模型組織數據,需要將數據按照Key-Value形式存儲,而后可以通過(guò)對Key-Value進(jìn)行序列化排序操作繼而存儲、將Key-Value存儲為字符串或者字節數據,并且對key建立索引以便進(jìn)行快速查詢(xún)。Key-Value存儲方式的NoSQL系統有的采用的DISK方式存儲實(shí)現同步數據復制(例如Membase等),有的采用RAM存儲數據實(shí)現異步數據復制(例如Redis等)。

  Jing Han等人基于Key-Value存儲提出了CDSA(Cloud Data Storage Architecture),體系結構可以較好優(yōu)化云計算過(guò)程中的數據查詢(xún),同時(shí)也保證了海量數據的存儲。CSDA包括三層:DCL(DataCache Layer)、MDL(Memory Database Layer)、DDL(Disk Database Layer)。

  2.2.2 基于BigTable存儲的NoSQL技術(shù)

  BigTable管理方式是Google提出來(lái)并廣泛采用的存儲方式,而且也被HBase、HyperTabley以及Cassandra等系統借鑒使用。在BigTable存儲中,同樣是通過(guò)Key-Value基礎模型對數據進(jìn)行建模,不一樣的是Value具有了比較精巧的結構,即一個(gè)Value包含多個(gè)列,這些列還能進(jìn)行分組(column family),表現出了多層嵌套映射的數據結構特點(diǎn)。HBase是受BigTable啟發(fā)而開(kāi)發(fā)的基于Column Family存儲的NoSQL技術(shù)。Hbase提供系統的SQL查詢(xún)接口,用戶(hù)可以輕松的對數據進(jìn)行管理工作。Cassandra技術(shù)也是受到BigTable的啟發(fā),只不過(guò)Cassandra做了大幅度的修改。Cassandra在Column Family下加入了超級列(super column)概念層次的映射關(guān)系,方便對數據進(jìn)行建模。Cassandra還可以將多個(gè)Column Family在磁盤(pán)存儲在一起,這樣就可以在同時(shí)訪(fǎng)問(wèn)時(shí)提高效率。

  2.2.3 基于Document存儲的NoSQL技術(shù)

  基于Document(文檔)存儲的技術(shù)以及發(fā)展很久了,例如IBM的Lotus Notes。這里所說(shuō)的基于Document存儲的NoSQL技術(shù)是基于傳統文檔存儲技術(shù)的新發(fā)展、新技術(shù)。基于Document存儲技術(shù)仍是以Key-Value存儲模型為基本模型,此模型可以對文檔的歷史版本進(jìn)行追蹤,單個(gè)文檔又是一個(gè)Key-Value的列表,形成循環(huán)嵌套的結構,對于某些特定的查詢(xún)方式來(lái)說(shuō),Document存儲的效率更高。因為其數據的循環(huán)嵌套的結構特點(diǎn),應用程序可能會(huì )越來(lái)越復雜并且難以維護和理解。主要的技術(shù)和產(chǎn)品有CouchDB, MongoDB和Dynamo。

  2.2.4 基于Graph存儲的NoSQL技術(shù)

  基于Graph存儲的系統包括Ne04J, InfoGrid,Hyper Graph DB等。有些圖數據庫是基于面向對象數據庫創(chuàng )建的,例如Infnite Graph,在節點(diǎn)的遍歷等圖數據的操作中,展現出了高效的性能。Graph存儲方式是將整個(gè)數據集建模成一個(gè)大型的網(wǎng)絡(luò )結構,之后再采用一系列圖操作實(shí)現對數據的操作。由于圖由結點(diǎn)和邊構成,對于海量數據不能完全裝入內存,因此,Graph存儲方式一般是基于DISK的,NoSQL系統實(shí)現圖索引,完成圖的調入調出。

  從數據管理的角度來(lái)看,使用非結構化Key-Value存儲管理結構化大數據仍然是順應應用需求的。因為基于Key-Value存儲的Hadoop數據倉庫實(shí)現技術(shù)尚處于起步階段,需要其他數據庫技術(shù)來(lái)加速器發(fā)展進(jìn)程。

  2.2.5 NoSQL的不足

  與傳統的關(guān)系型數據庫相比,NoSQL非關(guān)系型數據庫在并行處理方面有一定優(yōu)勢,但也是存在一些問(wèn)題,主要體現在:

  ( 1) NoSQL很難實(shí)現數據的完整性

  由于NoSQL項目中很難實(shí)現數據的完整性,而在企業(yè)中數據完整性又是必不可少的。因此,在企業(yè)中,NoSQL的應用還不是很廣泛。

  (2)成熟度不高

  大部分的NoSQL數據庫都是開(kāi)源項目,沒(méi)有世界級的數據庫廠(chǎng)商提供完整的服務(wù),出現問(wèn)題,都是自己解決,風(fēng)險較大。

  (3)關(guān)系數據庫比NoSQL在設計時(shí)更能夠體現實(shí)際,而NoSQL數據庫缺乏這種關(guān)系,難以體現業(yè)務(wù)的實(shí)際情況,對于數據庫的設計與維護都增加了難度。

  2.3 關(guān)系數據庫和NoSQL數據庫的區別

  傳統的關(guān)系數據庫與NoSQL數據庫在數據管理系統發(fā)展不同的時(shí)間段里都體現出了自己的可用性和實(shí)用性,能夠解決的一定的問(wèn)題。表格l將兩者進(jìn)行了對比。

  3 數據管理方式的展望

  通過(guò)上述研究分析可以看出,關(guān)系數據庫已經(jīng)無(wú)法滿(mǎn)足現階段即大數據時(shí)代人們對于數據存儲和管理的需求,更高的存儲效率和更快的查詢(xún)速度等一系列高要求,促使數據管理方式不斷向前發(fā)展。NoSQL技術(shù)在一定程度上解決了大數據時(shí)代的數據管理需求,但仍需采用新技術(shù)提高數據庫的一致性和可用性。關(guān)系數據庫主要優(yōu)點(diǎn)表現在其屬性值之間可以通過(guò)SQL操作進(jìn)行關(guān)聯(lián)操作,體現出了數據的完整性,NoSQL數據庫將數據進(jìn)行分布式存儲,為之后的大數據處理作鋪墊。關(guān)系數據庫的ACID強調數據一致性通常指的是關(guān)聯(lián)數據之間的邏輯關(guān)系是否正確和完整,而對于很多互聯(lián)網(wǎng)應用來(lái)說(shuō),對一致性和隔離性的要求可以降低,而可用性的要求則更為明顯。關(guān)系數據庫和NoSQL數據庫并不是對立的矛盾體,而是可以相互補充的,可以根據不同的需求使用不同的技術(shù),各取所需,甚至可以共同存在,互不影響。

  目前大數據的應用領(lǐng)域還是主要以民用為主,以電信通信為例,客戶(hù)之間通信傳輸過(guò)程中產(chǎn)生海量數據,將這些海量數據進(jìn)行實(shí)時(shí)存儲,再利用大數據方法提取有效信息,形成整套的數據管理與分析的流程。在電信.氣象、企業(yè)等領(lǐng)域大數據管理與分析已經(jīng)有比較成熟的思路和解決方法。在航天試驗領(lǐng)域,空間飛行器執行任務(wù)可以產(chǎn)生海量數據,包括飛行器自身載荷數據,以及試驗任務(wù)數據,這些數據的類(lèi)型多樣、數據量大,隨著(zhù)試驗任務(wù)的頻率和在軌航天器數量的增大,數據管理問(wèn)題日益凸顯,采用大數據管理的思維解決航天試驗任務(wù)中數據管理問(wèn)題,是未來(lái)航天試驗任務(wù)數據存儲和分析的必然趨勢。

  4 結論

  大數據時(shí)代已經(jīng)向我們走來(lái),數據管理技術(shù)已經(jīng)進(jìn)入了新的階段。本文研究分析了數據管理技術(shù)的發(fā)展進(jìn)程,分析了關(guān)系數據庫和NoSQL數據庫,并且進(jìn)行了對比區分。最后,對大數據未來(lái)的管理方式作出了展望。關(guān)系數據庫和NoSQL數據庫系統是隨著(zhù)人們對于數據管理的需求產(chǎn)生和發(fā)展的,在不同的數據管理發(fā)展階段,根據需要對其進(jìn)行分析的數據特點(diǎn),選擇適當的數據管理方式,幫助人們解決了一定的問(wèn)題和需求。

【大數據時(shí)代數據管理技術(shù)研究綜述論文】相關(guān)文章:

關(guān)于IP數據管理的論文08-25

數據管理制度01-09

數據管理規定(精選9篇)10-29

地鐵隧道結構變形監測數據管理系統的設計與實(shí)現論文10-02

數據管理制度優(yōu)秀04-26

經(jīng)濟數據管理自查報告09-23

數據管理制度20篇07-20

數據管理制度20篇07-28

數據管理制度(14篇)04-10

大數據時(shí)代穆斯林網(wǎng)站的發(fā)展策略論文08-19

泗洪县| 城市| 婺源县| 临潭县| 湖北省| 宁海县| 于田县| 手游| 修武县| 寿光市| 澎湖县| 房产| 新昌县| 广州市| 海淀区| 望江县| 娄底市| 上林县| 东光县| 隆林| 青冈县| 山阴县| 德格县| 泸溪县| 东乌珠穆沁旗| 修文县| 贺兰县| 汉阴县| 特克斯县| 宿州市| 台南县| 萨嘎县| 会理县| 万年县| 广宗县| 南宫市| 邹城市| 南木林县| 万州区| 福海县| 佳木斯市|