hadoop零散筆記

查找有沒有這個軟件通過管道查詢:sudo apt-cache search ssh | grep ssh


安裝的話:sudo apt-get install xxxxx

安裝ssh後要生成一個文件即執行:ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

最後在soft/haoop/etc/hadoop目錄下的三個文件中執行core-site.xml、hdfs-site.xml、mapred-site.xml中配置


-----------------------------------------------------


查看端口:netstat -lnpt netstat 或netstat -plut 。查看所有的端口:netstat -ano

--------------------------------------------------------------

把文件放到哪裏用 hadoop fs -put xxxx /xxxx/xxxxx/xxx


往上面集羣上放文件:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -put /home/ubuntu/hell.txt /user/ubuntu/data/

在集羣上下載文件是:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -get /user/ubuntu/data/hello.txt bb.txt


查看文件的健康情況:hdfs --config /soft/hadoop/etc/hadoop/etc/hadoop_cluster fsck /user/ubuntu/data/hello.txt



通過scp遠程複製 :scp -r /xxx/x


格式化文件系統:hdfs --config /soft/hadoop/etc/hadoop_cluster namenode -format


touch 是建一個文本文件


從一個虛擬機登錄到另個虛擬機ssh s2 ,如果是ssh s2 ls ~ 的話就是顯示一列列是的樣子 。如果執行

ssh s2 ls ~ | xargs 是顯示一橫的內容


查看集羣狀況:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -lsr /

把文件放到集羣上面就是hadoop --config /soft/hadoop/etc/hadoop_cluster fs -put xxxxx  後面是加所放的路徑位置


查看進程 ssh s2 jps   。ps -Af 也是查看進程  。殺死進程是kill -9 後面加進程的端口號


su root 根用戶


--------------------------------------------------

HDFS概念:namenode & datanode 

namenode:鏡像文件+編輯日誌,存放於本地磁盤,以及數據節點信息,不含block信息。block信息在cluster啓動時由datanode重建

datanode:work節點,存儲檢索block定期向namenode發送block list


在usr/local/sbin下切換到su root 用戶下建腳本,編寫你想要的執行腳本


修改blocksize大小 ,默認是128m

它在[hdfs-site.xml]

dfs.blocksize = 8m  設置塊大小是8M

1、測試方式 :put 文件  > 8m, 通過webui查看塊大小


---------------------------------------------------------


hadoop:可靠、可伸縮、分佈式的計算框架,開源軟件


四大模塊:1、common ----hadoop-commom-xxx.jar

 2、hdfs

          3、mapreduce

 4、yarn


hadoop完全分佈式:

1、hdfs --->NameNode、Datanode、SecondaryNode(輔助名稱節點)

2、Yarn---->ResourceManager(資源管理器)、NodeManager(節點管理器)


---------------------------------------------------

配置靜態ip進入etc的network裏面下編輯sudo nano interfaces:


# This file describes the network interfaces available on your system

# and how to activate them. For more information, see interfaces(5).


# The loopback network interface

auto lo

iface lo inet loopback


# The primary network interface

auto eth0

iface eth0 inet dhcp

iface eth0 inet static(設置爲靜態的ip)

address 192.168.92.148(客戶機的ip)

netmask:255.255.255.0(客戶機的)

gateway 192.168.92.2 (NAT網關地址)

dns-nameservers 192.168.92.2


最後是重啓網卡:sudo /etc/init.d/networking restart


-------------------------------------------------

客戶機關機命令:

1、sudo poweroff

2、sudo shutdown -h o

3、sudo halt


------------------------------

配置文本模式

進入到/boot/grub裏面查看一下

再進入cd /etc/default裏面執行gedit grub

在#GRUB_CMDLINE_LINUX_DEFAULT="quiet"的下面編寫GRUB_CMDLINE_LINUX_DEFAULT="text"


在# Uncomment to disable graphical terminal (grub-pc only)下面編寫:

GRUB_TERMINAL=console //打開註釋


改後執行sudo update-grub最後執行重啓sudo reboot


-----------------------------------------

啓動所有的數據節點:

hadoop-daemons.sh start namenode //在名稱節點服務器上執行啓動名稱節點

hadoop-daemons.sh start datanode //在指定的datanode上執行,啓動所有的數據節點

hadoop-daemon.sh start secondsrynamenode //啓動輔助名稱節點


-------------------------------------------------------

hdfs getconf 能查看到節點配置信息。比如hdfs getconf -namenode 可以知道是在s1客戶機上運行



-----------------------------------------------------------------

四大模塊:

1、common 

hadoop-coommon-xxx.jar

core-site.xml

core-default.xml

2、hdfs

hdfs-site.xml

hdfs-defailt.xml

3、mapreduce

mapre-site.xml

mapred-default.xml

4、yarn

yarn-site.xml

yarn-default.xml


----------------------------------

常用的端口:

1、namenode     rpc   //8020  webui  //50070

2、datanode     rpc  //8032   webui   //50075

3、2nn         webui  //50090

4、historyServer webui  //19888

5、resourcmanager webui//8088


--------------------------------------

dfs.hosts:決定能夠連接namenode

dfs.hosts.exclude:決定不能連接namenode


dfs.hosts           dfs.hosts.exclude

---------------------------------------------

0 0 //不能連接

0 1 //不能連

1 0 //能連

1 1 //能連會退役



---------------------------------------------

安全模式

1、namenode啓動時,合併p_w_picpath和edit成新的p_w_picpath,併產生新的edit log  

2、整個智能safe模式下,客戶端只能讀取

3、查看nameode是否位於安全模式

hdfs dfsadmin -safemode get    //查看安全模式

hdfs dfsadmin -safemode enter    //進入安全模式

hdfs dfsadmin -safemode leave    //離開安全模式

hdfs dfsadmin -safemode wait    //等待安全模式

4、手動保存名字空間:dfsadmin -saveNamespace


5、手動保存鏡像文件:hdfs dfsadmin -fetchImage


6、保存元數據:(保存在hadoop_home下即:hadoop /logs/下)hdfs dfsadmin -metasave xxx.dsds


7、start-balancer.sh :啓動均衡器,目的讓集羣數據存儲上更加平均,提高整個集羣的性能(一般我們在增加節點的情況下才啓動均衡器)

8、hadoop fs -count統計目錄



--------------------------------------------------

Hadoop Snapshot快照:就是把當前的情況拍照保存起來。一般目錄默認的情況是不能創建快照的。必須執行hdfs dfsadmin -allowSnapshot /user/ubuntu/data。允許創建快照,後面跟的是你想創建快照的地址路徑。在這裏允許創建快照後我們就可以執行hadoop fs -createSnapshot /user/ubuntu/data snap-1創建快照了。snap-1是你創建快照名。查看快照的話直接hadoop fs -ls -R /user/ubuntu/data/.snapshot/。還有你在創建快照的情況下是不能禁用快照的



1、創建快照hadoop fs [-createSnapshot <snapshotDir> [<snapshotName>]]


2、刪除快照hadoop fs [-deleteSnapshot<snapshotDir> <oldName> <newName>]


3、重命名快照hadoop fs [-renameSnappshot<snapshotDir> <oldName> <newName>]


4、允許目錄快照hadoop dfsadmin [-allowSnapshot <snapshotDir>]


5、禁用目錄快照hadoop dfsamdin[-disallowSnapshot<snapshotDir>]



------------------------------------------

回收站

1、默認是0秒,意味着禁用回收站

2、設置文件回收站的駐留時間[corep-site.xml] fs.trash.interval=1   //分鐘數計算

3、通過shell命令刪除的文件,會進入trash

4、每個用戶都有自己的回收站(目錄) 即:/user/ubuntu/.Trash

5、編程方式刪除不進入回收站,立即刪除,可以調用。moveToTrash()方法,返回false,說明禁用回收站或者已經在站中


回收站:hadoop默認的回收站是關閉的,時間單位:分鐘對應當前用戶文件夾的.Trash目錄。rm時會將文件移動到該目錄下

[core-site.xml]

<porperty>

    <name>fs.trash.interval</name>

    <value>30</value>

</property>


回收站:恢復文件。將.Trash目錄的文件移動出即可:hadoop fs -mv /user/ubuntu/.Trash/xx/x/x data/


清空回收站:hadoop fs -expunge


測試刪除回收站:hadoop fs -rm -R /user/ubuntu/.Trash


-----------------------------------

配額:quota 


1、目錄配額:hdfs dfsadmin -setQuota N /dir //N > 0 ,目錄配額。1:表示空目錄,不能放置任何元素


2、空間配額 :hdfs dfsadmin -setSpaceQuota


hadoop fs === hdfs dfs //文件系統的操作命令

-clsSpaceQuota //清除空間配額

-clsQuota //清除目錄配額


---------------------------------------------------

oiv可以查看鏡像文件內容 -i是輸入文件 -o是輸出文件。XML是處理器

具體操作:hdfs oiv -i fsp_w_picpath_000000000000000054 -o ~/a.xml -p XML


查看edit_xxx編輯日誌文件:hdfs oev -i xxx_edit -o xxx.xml -p XML



鏡像文件是不是在/hadoop/dfs/name/current 這裏?

cat: fsp_w_picpath_0000000000000054


bg %是讓軟件在後臺運行


-----------------------------------------------------------

刷新節點:hdfs dfsadmin -refreshNodes


-----------------------------------------













發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章