原创 Hadoop開發問題彙總

文章目錄1、hdfs複製和移動2、Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used3、Con

原创 2017-實習:機器學習、大數據開發、研發等崗位面經

前言 剛過完年,就開始到處找實習了,可惜後來發生了一些事情,耽誤了春招實習,也完全改變了人生方向。。。 後來到處找散招的實習以及參加春招的暑假實習生筆面試,總共經歷了十家公司的面試,相比我秋招的二十家面試少了一半,呵呵噠。。。 同

原创 Hive開發問題彙總

文章目錄一、group by操作後將其他字段串接二、求collect_set()數組內的大小三、group by 操作時ParseException line 7:22 missing ) at ',' near ''四、hive

原创 2017-秋招:機器學習/算法工程師(含大量面經)

本博文已經發布在牛客網上的討論區: https://www.nowcoder.com/discuss/61907 前言: 從今年的8月1號正式開啓秋招到現在,過去三個多月了,發生了很多事情,經歷了N多場筆試和麪試,深深感慨到本碩雙

原创 spark開發問題彙總 (持續更新)

Spark官方文檔:http://spark.apache.org/docs/2.1.0/index.html Spark2.0新特性介紹:http://www.slideshare.net/databricks/apache-s

原创 Scala開發問題彙總

文章目錄一、在scala的2.10.*時代,case class只支持22參數二、Nil的含義三、split的使用四、scala中集合求交集和差集五、scala中可變的map六、scala中value foreach is not

原创 maven和POM問題彙總

文章目錄1. 執行mvn 報錯 source-1.5 中不支持 diamond運算符2. Unknown lifecycle phase "complile"運行四個命令:3. maven下provided作用域說明4. java

原创 git開發問題彙總

文章目錄1. 命令行查看標籤2. 撤銷已經做的所有修改3. gitignore不起作用 1. 命令行查看標籤 git tag -l git tag 標籤名 2. 撤銷已經做的所有修改 git status -s git che

原创 idea開發問題彙總

文章目錄1. idea配置pyhton環境2. idea配置不同module之間互相調用方法 1. idea配置pyhton環境 https://www.jianshu.com/p/06f9e7d2f35c 2. idea配置不同

原创 【轉載】Presto日常優化

查詢速度慢, 如何優化? 解決方法1: 避免單節點處理 雖然Presto是分佈式查詢引擎, 但是一些操作是必須在單節點中處理的. 例如: count(distinct x) 考慮使用approx_distinct(x)代替

原创 Flink開發問題彙總 (持續更新)

採用scala語言 mac系統下通過brew安裝時,本地默認安裝地址 /usr/local/Cellar/apache-flink/1.5.1 文章目錄一、flink裏面能調用圖算法嗎?二、Cannot instantia

原创 Spark數據傾斜問題解決與如何對pairRDD內部採樣

1、問題背景 最近遇到一個這樣的需求,需要將原始數據按照key進行彙總,然後把對應key的value數據按照時間排序進行排序,最後分別對每個key進行相同的value操作,於是遇到了嚴重的數據傾斜問題。 單個task接收到了單個k

原创 算法系列 - 廣告反作弊概述

以下所有內容均整理於各種博客 文章目錄一、廣告名詞解釋二、廣告作弊手段三、廣告反作弊規則方案3.1 用戶標識3.2 用戶行爲3.3 廣告來源四、廣告反作弊機器學習方案五、參考文檔 一、廣告名詞解釋 網絡營銷之所以越來越受到重視一個

原创 Ubuntu 32 下安裝MongoDB

之前在win7的32和64位上安裝了MongoDB,今天又在Ubutnu32上鼓搗這個,還好網上其他博客有介紹,就不在重複造輪子了,鏈接如下:參考鏈接 需要注意的是:配置的時候一定要加上 –storageEngine=mmapv1

原创 《利用Python進行數據分析》第二章pivot_table報錯問題

http://blog.csdn.net/Zhangjunjie789/article/details/47724813 學習《利用Python進行數據分析》第二章的時候,處理1880-2010年間全美嬰兒姓名數據,有句代碼總是報