原创 ASIWebPageRequest問題
用ASIWebPageRequest請求sina.cn網頁,發現老不能正常完成。 發現原來其在解析內鏈地址時,把about:blank當成uri地址了。 修改後,成功!
原创 spooldir source header 攔截器
spooldir source可以將文件名作爲header中的key:basename寫入到event的header當中去。試想一下,如果有一個攔截器可以攔截這個event,然後抽取header中這個key的值,將其拆分成3段,每一段都放
原创 用flume提交文件到hdfs系統,並保持原來的文件名信息
用flume提交文件到hdfs系統,並保持原來的文件名信息的配置方式: # 配置files_source # spooling agent1.sources.files_source.type = spooldir agent1.sour
原创 多sink
多sink可以直接按常規配置,這樣的話每個sink會啓動一個sinkrunner,相當於每個線程一個sink,互不干擾,負載均衡是通過channel
原创 .gz文件上載到hdfs中
.gz文件上載到hdfs中 用 dfs -copyFormLocal的方式,上載後的文件正常,可以用mapreduce直接讀取; 終於找到原因了:一個配置問題, HdfsSink中默認的serializer會每寫一行在行尾添加一個換行符
原创 MapReduce傳遞文件內容到map中使用
Job中配置: String Info_inConfigDir = "hdfs://localhost:9000/cps/conf/FileReport"; Path filePath = new Path(Info_inConfigD
原创 storm簡述最爲清楚的文章
http://storm.apache.org/documentation/Understanding-the-parallelism-of-a-Storm-topology.html Config conf = new Confi
原创 MapReduce一次性讀取小文件全部內容(壓縮和非壓縮),文件名作key
/** Text缺省的最大到1024*1024,也就是1MB */ public class SmallFileRecordReader extends RecordReader<NullWritable, Text>{ pri
原创 kafkaspout+storm
storm0.9.6; kafka_2.8.0-0.8.1.1 集成後,運行出現各種異常。 需要把curator,guava,zookeeper等幾個包下載到storm/lib目錄下,OK; kafka有個疑問:topic在機器重新啓動
原创 Storm UI Topology summary
Storm UI Topology summary 初學storm,提交了個本地模式的topology,運行正常,但是Storm UI Topology summary爲空; 經過各種檢查實驗,原來是隻有提交distributed mod
原创 ziyuan
Java微信開發視頻鏈接: http://pan.baidu.com/s/1c02IBN6 密碼: pqjf
原创 ReliableSpoolingFileEventReader
1.6.0中修改: /apache-flume-1.6.0-src/flume-ng-core/src/main/java/org/apache/flume/client/arvro/ package org.apache.flume.
原创 flume監控
http://www.cnblogs.com/sunxucool/p/3906525.html lume本身提供了http, ganglia的監控服務 #flume應用參數監控bin/flume-ng agent -n consumer
原创 TF feeding
供給數據(Feeding): 在TensorFlow程序運行的每一步, 讓Python代碼來供給數據。 def extract_data(filename, num_images): """Extract the images i
原创 數據挖掘1
數據挖掘過程的方法論,其中比較經典的是CRISP-DM(CRoss IndustryStandard Process- for Data Mining,跨行業數據挖掘標準流程),其中一共分爲6個步驟:商業理解,數據理解,數據準備,建模,評