原创 ASIWebPageRequest問題

用ASIWebPageRequest請求sina.cn網頁,發現老不能正常完成。 發現原來其在解析內鏈地址時,把about:blank當成uri地址了。 修改後,成功!

原创 spooldir source header 攔截器

spooldir source可以將文件名作爲header中的key:basename寫入到event的header當中去。試想一下,如果有一個攔截器可以攔截這個event,然後抽取header中這個key的值,將其拆分成3段,每一段都放

原创 用flume提交文件到hdfs系統,並保持原來的文件名信息

用flume提交文件到hdfs系統,並保持原來的文件名信息的配置方式: # 配置files_source # spooling agent1.sources.files_source.type = spooldir agent1.sour

原创 多sink

多sink可以直接按常規配置,這樣的話每個sink會啓動一個sinkrunner,相當於每個線程一個sink,互不干擾,負載均衡是通過channel

原创 .gz文件上載到hdfs中

.gz文件上載到hdfs中 用 dfs -copyFormLocal的方式,上載後的文件正常,可以用mapreduce直接讀取; 終於找到原因了:一個配置問題, HdfsSink中默認的serializer會每寫一行在行尾添加一個換行符

原创 MapReduce傳遞文件內容到map中使用

Job中配置: String Info_inConfigDir = "hdfs://localhost:9000/cps/conf/FileReport";  Path filePath = new Path(Info_inConfigD

原创 storm簡述最爲清楚的文章

http://storm.apache.org/documentation/Understanding-the-parallelism-of-a-Storm-topology.html Config conf = new Confi

原创 MapReduce一次性讀取小文件全部內容(壓縮和非壓縮),文件名作key

/** Text缺省的最大到1024*1024,也就是1MB */ public class SmallFileRecordReader extends RecordReader<NullWritable, Text>{      pri

原创 kafkaspout+storm

storm0.9.6; kafka_2.8.0-0.8.1.1 集成後,運行出現各種異常。 需要把curator,guava,zookeeper等幾個包下載到storm/lib目錄下,OK; kafka有個疑問:topic在機器重新啓動

原创 Storm UI Topology summary

Storm UI Topology summary 初學storm,提交了個本地模式的topology,運行正常,但是Storm UI Topology summary爲空; 經過各種檢查實驗,原來是隻有提交distributed mod

原创 ziyuan

Java微信開發視頻鏈接: http://pan.baidu.com/s/1c02IBN6 密碼: pqjf

原创 ReliableSpoolingFileEventReader

1.6.0中修改: /apache-flume-1.6.0-src/flume-ng-core/src/main/java/org/apache/flume/client/arvro/ package org.apache.flume.

原创 flume監控

http://www.cnblogs.com/sunxucool/p/3906525.html lume本身提供了http, ganglia的監控服務 #flume應用參數監控bin/flume-ng agent -n consumer

原创 TF feeding

供給數據(Feeding): 在TensorFlow程序運行的每一步, 讓Python代碼來供給數據。 def extract_data(filename, num_images):     """Extract the images i

原创 數據挖掘1

數據挖掘過程的方法論,其中比較經典的是CRISP-DM(CRoss IndustryStandard Process- for Data Mining,跨行業數據挖掘標準流程),其中一共分爲6個步驟:商業理解,數據理解,數據準備,建模,評