原创 Hadoop學習筆記——集羣搭建

學習視頻:https://www.bilibili.com/video/BV164411Z7cR   安裝: VMware:https://www.cnblogs.com/nongzihong/p/10475753.html CentO

原创 HADOOP學習筆記——JAVA使用API將本地文件上傳到HDFS

HDFS API詳解:https://www.cnblogs.com/alisande/archive/2012/06/06/2537903.html Hadoop HDFS 文件訪問權限問題導致Java Web 上傳文件到Hadoop失

原创 風控建模筆記

風控建模=業務+算法+項目 標準評分卡開發流程  python:pandas、numpy、statsmodels、sklearn 數據分析流程: 1,數據獲取 2,數據預處理(空值,異常值處理) 3,對數據進行分箱,woe編碼,建模預估

原创 工作記錄

3.18/3.20/3.21 人臉自動打卡封裝成系統 1)將人臉打卡代碼從語音機器人中分離出來並封裝固化成Class,通過配置文件添加代碼中的固定參數。 2)能通過excel快速、便捷地爲系統添加新需要打卡的人 3)攝像頭開啓,自動打卡,

原创 BFS,DFS

1.深度優先搜索(DFS) 基本步驟: 1.從圖中某個頂點v0v0出發,首先訪問v0v0;  2.訪問結點v0v0的第一個鄰接點,以這個鄰接點vtvt作爲一個新節點,訪問vtvt所有鄰接點。直到以vtvt出發的所有節點都被訪問到,回溯到v

原创 數據挖掘

https://www.cnblogs.com/codetker/p/4607442.html

原创 (私)面試記錄

2.18 電話面試: 深信服:算法實習生 2.20 投遞: 平安科技嶗山路 算法工程師:[email protected] 字節跳動:算法實習生 拼多多:算法實習生     等待筆試安排 上海薇視網絡科技有限公司:數據工

原创 NLP學習筆記

問答系統 1、分類;2、匹配;2、翻譯;4、結構化預測;5、馬爾可夫決策測過程。 NLP表示方法 one-hot vector:難以發現詞之間的關係,維度災難。 分佈式表示: 基於矩陣 基於神經網絡wordembedding NLP的文本

原创 算法問題中的code題目

Table of Contents 最長公共子串 最長公共子序列 最長遞增字串實現sqrt()函數 最長公共子串 # coding:utf-8 ''' 求兩個字符串的最長公共子串 思想:建立一個二維數組,保存連續位相同與否的狀態 '''

原创 code題

1、實現sqrt()函數 二分法 def sqrt_binary(x): low = 0 high = max(1, x) guess = (low + high)/2 count = 1 whi

原创 算法問題

其他的面試問題:https://www.jianshu.com/p/4a3c5e34d0f8?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=

原创 數據結構

樹轉二叉樹      (1)、加線。在所有的兄弟結點之間加一條線。      (2)、去線。樹中的每個結點,只保留它與第一個孩子結點的連線,刪除其他孩子結點之間的連線。      (3)、調整。以樹的根結點爲軸心,將整個樹調節一下(第一個

原创 音樂推薦

數據集:https://www.upf.edu/web/mtg/lastfm360k  

原创 數據挖掘筆記(寫給程序員的數據挖掘實踐指南)

一、協同過濾(CF)——尋找相似用戶 曼哈頓距離(數據稠密:幾乎所有屬性都沒有0值,且屬性值大小十分重要)                 歐式距離(明氏距離)(數據稠密:幾乎所有屬性都沒有0值,且屬性值大小十分重要)        

原创 代碼Tips

 sorted(key=lambda): setdefault函數的用法及理解 dict.setdefault(key, default=None)功能:如果鍵不存在於字典中,將會添加該鍵並將default的值設爲該鍵的默認值,