大數據相關術語(2)

27.LDB(local DataBase):本地數據庫
本地數據庫是指駐留於運行客戶應用程序的機器上的數據庫。本地數據庫提供最快的相應時間。因爲在客戶端沒有網絡傳輸。

本地數據庫位於本地磁盤或局域網上。如果有幾個用戶同時訪問數據庫，本地數據庫採取攘於文件的鎖定策略。因此本地數據庫叫基於文件的數據庫。典型的有Paradox、dBasep、FoxPro、Access。

28.DAQ(data Acquisition):數據採集
數據採集是指將被測對象的各種參量通過各種傳感器做適當轉換後，在經過信號調理、採樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。
各類數據採集系統的數據採集過程基本相同，一般包括這樣幾個步驟：
1.用傳感器感受各種物理量，並把他們轉換爲電信號；
2.通過A/D轉換，模擬量的數據轉變爲數字量的數據；
3.數據的記錄，打印輸出或存入磁盤文件；
各種數據採集系統所用的數據採集程序有：

大型專用程序、固話的採集程序(小型專用系統)、利用軟件工具用戶自行編制的採集程序(組合式系統)

29.data model:數據模型

數據模型是顯示世界數據特徵的抽象，用於描述一組數據的蓋面和定義。數據模型數受苦中數據的存儲方式，是數據庫系統的基礎。在數據庫中，數據的物理結構成爲數據的存儲結構，就是數據元素在計算機存儲器中的表示及其配置；數據的邏輯結構則是指數據元素之間的邏輯關係，它是數據在用戶或程序員面前的表現形式，數據的存儲結構不一定與邏輯結構一致。

30.範式(數據庫術語)
範式是符合某一種級別的關係模式的集合，關係數據庫中的關係必須滿足一定的要求，滿足不同程度要求的爲不同範式。

目前範式有：第一範式、第二範式、第三範式、BC範式、第四範式、第五範式。

31：數據壓縮(data compression):
數據壓縮是以及可能少的數碼來表示信源發出的信號，較少容納給定的消息集合或數據採樣集合的信號空間。這裏的信號空間，就是被壓縮的對象，是指某信號集合所佔的時域、空域和頻域。信號空間的這幾種形式是仙童冠樑的，存儲空間的減少，意味着信號傳輸效率的提高，所佔帶寬的節省。只要採取某種方式來減少某個信號空間，就能夠壓縮數據。

數據壓縮是信息論中的一個很重要的概念。從信息論的角度來講，信源編碼的一個最主要的目的就是要解決數據的壓縮問題。這一點，反映在整個通信過程中。

32.數據恢復(data recovery)

數據恢復是指由於各種原因導致數據損失時，把保留在介質上的數據重新還原。及時數據被刪除或硬盤出現故障，在介質沒有嚴重受損的情況下，數據均有可能被無損恢復。格式化或誤刪除引起的數據損失情況，大部分數據未損壞。只要通過軟件重新恢復連接環節，即可重讀數據。如果硬盤因硬件損壞無法訪問，只要更換髮生故障的零件，即可恢復數據。但在介質嚴重受損或數據被覆蓋時，數據極難恢復。

33.數據集成(data integtation)

數據集成就是講若干個分散的數據源中的數據、邏輯的或物理的集成到一個同意的數據集合中。數據集成的核心任務是要講互聯的分佈式異構數據源集成到一起，使用戶能夠以透明的方式訪問這些數據源。集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率；透明的方式是指用戶無需關係如何實現對異構數據源數據的訪問，只關心以何種方式訪問何種數據。實現數據集成的系統成爲數據集成系統。他爲用戶提供統一的數據源訪問接口，執行用戶對數據源的訪問請求。

34.數據遷移(data migration)

數據遷移是數據系統整合中保證系統平滑升級和更新的關鍵部分。在信息化建設過程中，隨着技術的發展，原有的信息系統不斷被功能更強大的新系統所取代，從兩層結構到三層結構，從C/S到B/S 。在新舊系統的切換過程中，必然要面臨一個數據遷移的問題。

35.數據源(data element)

數據元即數據元素，是通過定義、標識、表示和允許值等一系列屬性描述的數據單元，在一定語境下，構建一個語義正確、獨立且無I儀的特定概念語義的信息單元。數據元可理解爲數據的基本單元，將若干具有相關性的疏遠按一定次序組成一個整體結構即數據模型。

36.數據冗餘(data redundancy)

數據冗餘是指同一個數據在系統中多次重複出現。在文件系統中，由於文件之間沒有聯繫，有時一個數據在多文件中出現；而數據庫系統則克服了文件系統的這種缺陷，但仍然存在數據冗餘問題。消除數據冗餘的目的是爲了避免更新時可能出現的問題，以便保持數據的一致性。

37.數據抽取

數據抽取是從數據源總抽取數據的過程。數據抽取是指從源數據源系統抽取目的數據源系統需要的數據。實際應用中個，多采用關係數據庫。

38.數據標準化(data standardization)

數據標準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程

39.數據備份(data backup)
數據備份是把文件或數據庫從原來的存儲地方複製到其他地方的活動，其目的是爲了在這杯發生故障或其他威脅數據安全的災害時保護數據，將數據遭受破壞的程度見到最小。取回原先備份文件的過程叫做數據恢復
1.完全備份(Full backup)
這種備份策略優點是當發生數據丟失的災難時，可以徐蘇恢復丟失的數據。
不足：每天對整個系統進行完全備份，造成備份的數據大量重複。對於業務繁忙、備份時間有限的用戶，選擇這種策略不明智
2.增量備份(Incremental Backup)
先進行一次完全備份，接下來對當前新的或被修改過的數據進行備份，節省磁盤空間，縮短備份時間；缺點是當災難發生時，數據的恢復比較麻煩，備份的可靠性很差
3.差分備份(Differential Backup)

先進行系統完全備份，接下來將當天所有與備份不同的數據備份到磁盤上。避免了以上兩種側羅的缺陷，有具有其所有優點。首先，它無需每天對系統做完全備份，因此節省時間和磁盤空間。其次，災難恢復也很方便，一旦發生問題，用戶只需要使用完全備份和發生問題前一天的備份就可以將系統恢復。

40.貪心算法(Greedy algorithm)
貪心算法是指在對問題求解時，總是做出在當前看來是最好的選擇。也就是說，不從整體最優上加以考慮，他所做出的僅僅是在某種意義上的局域最優解。

貪心算法不是對所有的問題都能得到整體最優解，關鍵是貪心策略的選擇，選擇貪心策略必須具備無後效性，即某個狀態以前的過程不會影響以後的狀態，只與當前狀態有關。

41.分治法(Divide and Conquer)

在計算機科學中分治法是一種很重要的算法，分而治之。就是把複雜的問題分成兩個或更多的相同或相似的子問題，再把子問題分成更小的子問題。知道最後子問題可以簡單的直接求解。原問題的解即子問題的解的合併。這個技巧是很多高效算法的基礎(排序算法、傅里葉變換)

42.動態規劃(Dynamic programming)

動態規劃是運籌學的一個分支，是求解決策過程最優化的數學方法。把多階段過程轉化爲一系列單階段問題，利用各階段間的關係，逐個求解。

43.迭代法(Iterative Method)

迭代法也稱輾轉法，是一種不斷用變量的舊值遞推心智的過程。迭代分爲精確迭代和金絲迭代。"二分法"和"牛頓迭代法"屬於近似迭代法。迭代算法是計算機解決問題的基本方法。利用計算機運速塊，適合做重複操作特點，讓計算機對一組指定重複執行。在每次執行時，都從變量的原值推出它的新值

44.分支界限法(branch and bound method)
是用途十分廣泛的算法，運用這種算法的技巧性很強，不同類型的問題解法也不同。

基本思想：對有約束條件的最優化問題的所有可行解空間進行搜索。該算法在具體執行時，把全部可行的解空間不斷分割爲越來越小的子集(分支)，併爲每個子集內的解的值計算一個下界或上界（定界）.在每次分支後，對凡是界限超出已知可行解值那些子集不再做進一步分支。這樣，解的許多子集就可以不予考慮了，從而縮小搜索範圍。這一過程直到進行到找到可行解爲止，該可行解的值不大於任何子集的界限。因此這種算法一般可以求得最優解。

45.割圓術(cyclotomic method)
用圓內接正多邊形的面積去無限逼近圓面積並以此求取圓周率的方法

親吻昨日的陽光

發佈了62 篇原創文章 · 獲贊 5 · 訪問量 8萬+

私信關注

大數據相關術語(2)

24-5-18 X

入門練習

停止Hadoop或HBase集羣的腳本

顯示當前Hadoop集羣節點上啓動的進程

大數據相關術語(1)

redis sorted_set 命令操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結