原创 LeetCode經典算法精解-字符串編輯距離

  字符串的編輯距離也被稱爲距Levenshtein距離(Levenshtein Distance),屬於經典算法,常用方法使用遞歸,更好的方法是使用動態規劃算法,以避免出現重疊子問題的反覆計算,減少系統開銷。 《編程之美》一書中3.3節

原创 詳解tensorflow數據讀取-tf.train.string_input_producer和tf.train.start_queue_runners

一、tensorflow讀取機制圖解 首先需要思考的一個問題是,什麼是數據讀取?以圖像數據爲例,讀取數據的過程可以用下圖來表示:   假設我們的硬盤中有一個圖片數據集0001.jpg,0002.jpg,0003.jpg……我們只需要把它

原创 JOB機上使用make編譯源碼避坑指南

GCC編譯過程參考:https://www.cnblogs.com/lzpong/p/5755678.html   執行到make時出現了錯誤:   configure: error: C++ preprocessor "/lib/cp

原创 GBDT自動調參機

比較實用的一個自動調參代碼,可以根據自己的算法進行設置 import pandas as pd import lightgbm as lgb from sklearn import metrics from sklearn.datase

原创 Python優化之使用pandas讀取和訓練千萬級數據

上個周在公司用一天的全量數據做模型驗證時,由於JOB機的內存總是不夠用,在跑lightGBM模型時會提示mem-error然後整個python腳本崩潰掉。這週末花了一些時間把pandas的內存機制認真分析了一下,找到了如下的解決方案:  

原创 Scala常用List列表操作方法示例

這篇文章主要介紹了Scala常用List列表操作方法示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨着小編來一起學習學習吧 把Scala List的幾種常見方法梳

原创 老飛飛重製版-Github上的免費遊戲

首先聲明一下這不是什麼廣告,我是在github上看到這個重製版的信息,熟悉我的C友都知道我以前很喜歡玩遊戲的,飛飛是我小學時候就在玩的遊戲,後來關服了挺可惜的。最近在網上看到有一個法國的前端大神自己搭了一個服務器,重新還原了老飛飛,可以全

原创 Hadoop-RPC底層實現與解析

Hadoop-RPC底層 RPC 是遠程過程調用(Remote Procedure Call),即遠程調用其他虛擬機中運行的 java object。RPC 是一種客戶端/服務器模式,那麼在使用時包括服務端代碼和客戶端代碼,還有我們調用的

原创 996.ICU-996.LAW—反抗996-衆籌聘律師進行聯合仲裁

Github地址:996.LAW 此版塊爲法律板塊,其他討論請去往主站:996.ICU 此GITHUB-repo主要收集大家的仲裁、民事訴訟信息,ISSUE標題請按照格式: [公司名-城市-是否996-是否已裁員-是否有其他違法行爲] 內

原创 線程與進程的區別及其通信方式

今天螞蟻金服的面試問了這個問題,太久沒複習了沒答上來,認真讀了一下這篇文章,算是一個反饋。   概念 線程:是操作系統能夠進行運算調度的最小單位。是進程中的一個執行流程,一個進程中可以運行多個線程。 進程:一個執行中的程序的實例。 進程

原创 Xshell把文件傳進虛擬機-僅需三行命令

補充:目前沒辦法支持文件夾的互傳,建議打包了之後再解壓縮。 這個方法比較簡單,一共分4步,XShell5的用戶要多一條-第2步,5以上版本的不需要,因爲安裝的時候已經自動配置好了。另外請注意,用Xshell配置和連接虛擬機時,請不要關閉虛

原创 一文讀懂HBase的存儲模式--BigTable

摘要    Bigtable 是一個分佈式的結構化數據存儲系統,它被設計用來處理海量數據:通常是分佈在數千臺普通服務器上的 PB 級的數據。Google 的很多項目使用 Bigtable 存儲數據,包括 Web 索引、 Google Ea

原创 如何理解c++的左值引用與右值引用

前幾天看了一篇文章《4行代碼看看右值引用》 覺得寫得不錯,但是覺得右值引用的內容還有很多可以去挖掘學習,所以總結了一下,希望能對右值引用有一個更加深層次的認識 一、幾個基本概念 1.1左值和右值 左值和右值的區分標準在於能否獲取地址。 最

原创 FTRL在線學習算法的前世今生-從SGD到TG再到FOBOS與RDA

現在做在線學習和CTR常常會用到邏輯迴歸( Logistic Regression),而傳統的批量(batch)算法無法有效地處理超大規模的數據集和在線數據流,google先後三年時間(2010年-2013年)從理論研究到實際工程化實現的

原创 【輕量級微博爬蟲】自動爬取用戶信息及微博內容(2019年3月可用)

前言 爲什麼寫這個博客,主要是CSDN上有幾個比較熱的微博爬蟲,基本在今年都掛掉了用不了。。比如 微博爬蟲,每日百萬級數據,博主寫的比較全,不過因爲今年微博查的更嚴了,所以每日百萬級的基本不太可能(除非有很多賬號,然而淘寶上的微博賬號也漲