原创 《Spark快速大數據分析》筆記Ch4 鍵值對操作

  鍵值對 RDD 是 Spark 中許多操作所需要的常見數據類型。本章就來介紹如何操作鍵值對RDD。鍵值對 RDD 通常用來進行聚合計算。我們一般要先通過一些初始 ETL(抽取、轉化、裝載)操作來將數據轉化爲鍵值對形式。   

原创 CS231n-深度學習與計算機視覺-筆記-Lecture2 圖像分類

Lecture1 課程介紹 計算機視覺概述 筆記 這個課程CS231n,關於計算機視覺。計算機視覺,就是針對視覺數據的研究。計算機視覺的發展歷程。 Lecture2 Image Classification pipeline 數據

原创 使用Anaconda安裝faiss

我透,耗費了我兩個下午,在第一臺服務器安裝踩坑,後來又在另一臺服務器安裝又踩坑,我服了。特此記錄。 使用Anaconda安裝faiss是最方便快速的方式,facebook會及時推出faiss的新版本conda安裝包,在conda安

原创 論文筆記《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

Abstract 介紹了一種新的語言表示模型BERT,它代表Transformers的雙向編碼器表示。與最近的語言表達模型不同,BERT是預先訓練深層雙向表示,通過聯合調節所有層中左右的上下文。因此,可以通過一個額外的輸出層對預訓

原创 2018年算法工程師秋招經驗貼(微軟、華爲、網易遊戲、阿里offer)

目前不打算再投其他的公司了,所以來寫面試總結。一直被各種人追問面經,準確寫好一勞永逸哈哈哈。本人985碩士,性別女,可以參考下哈。有什麼問題,可以留言哈。 1.微軟 微軟是參加的進校面試,(師姐安利的,師姐是參加的夏令營)微軟的面

原创 memory_profiler監測python代碼運行時內存消耗

使用memory_profiler中的mprof功能來進行測量的,它在代碼運行過程中每0.1S統計一次內存,並生成統計圖。 首先安裝memory_profiler和psutil(psutil主要用於提高memory_profile

原创 Python3.6: import cvxopt: ImportError: DLL load failed.

python3.6導入cvxopt時提示,找不到指定的模塊: ImportError: DLL load failed: 找不到指定的模塊。 cvxopt 需要安裝Numpy-MKL:https://www.lfd.uci.ed

原创 17-8-6周總結(hadoop筆記)

1、概念   Hadoop是適合大數據的分佈式存儲與計算平臺。HDFS(Hadoop Distributed File System)分佈式文件系統;MapReduce 並行計算框架。   主從結構:主節點,只有一個,namen

原创 17-7-24周總結(Python教程筆記)

1、Python簡介   Python是“龜叔”Guido van Rossum在1989年聖誕節期間,爲了打發無聊的聖誕節而編寫的一個編程語言。(論程序員是如何度過聖誕節)   C語言是可以用來編寫操作系統的貼近硬件的語言,所

原创 周志華《機器學習》筆記:第2章 模型估計與選擇

1、經驗誤差與過擬合   分類錯誤數佔樣本總數的比例稱爲“錯誤率”,精度=1-錯誤率。   學習器的實際預測輸出與樣本的真實輸出之間的差異稱爲“誤差”,學習器在訓練集上的誤差稱爲訓練誤差/經驗誤差,在新樣本上的誤差稱爲“泛化誤

原创 周志華《機器學習》筆記:第3章 線性模型

1.基本形式   線性模型試圖學得一個通過屬性的線性組合來進行預測的函數,即向量形式寫成: f(x)=ωT+b.   其中,ω=(ω1;ω2;⋯;ωd) . ω 和 b 學得之後,模型就得以確定。由於ω 直觀表達了各屬性

原创 SpringMVC開發所遇問題總結

1、Postman發送json格式請求   採用POST的請求方式,並且須夾帶JSON數據給Web API。 輸入Web API 地址,並選擇以POST方式發送 點選 Headers按鈕 ,加入宣告Content-Type

原创 周志華《機器學習》筆記:第1章 緒論

1、引言    我們常會得到很多基於經驗做出的預判。機器學習致力於研究如何通過計算的手段,利用經驗來改善系統自身的性能。在計算機系統中,“經驗”通常以“數據”形式存在,因此,機器學習所研究的主要內容,是關於在計算機上從數據中產生“模型”

原创 《機器學習實戰》 Ch10 K-均值聚類

1、K均值聚類算法   聚類是一種無監督的學習,它將相似的對象歸到同一簇中。聚類的方法幾乎可以應用所有對象,簇內的對象越相似,聚類的效果就越好。K-均值是發現給定數據集的k個簇的算法。簇個數k是用戶給定的,每一個簇通過其質心(ce

原创 周志華《機器學習》筆記:第5章 神經網絡

1、神經元網絡模型   神經網絡中最基本的成分是神經元模型,即“簡單單元”。“M-P神經元模型”,神經元接收到來自n 個其他神經元傳遞過來的輸入信號,這些輸入信號通過帶權重的連接進行傳遞,神經元接收的總輸入值將與神經元的閾值進