原创 spark統計每天新增用戶數

本文爲轉載,作者:董可倫,鏈接地址:https://dongkelun.com/2018/04/11/sparkNewUV/ 前言 本文源自一位羣友的一道美團面試題,解題思路(基於倒排索引)和代碼都是這位大佬(相對於尚處於小白階段

原创 基於Spark的學生成績分析系統

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 本文是本人碩士期間雲計算課程的一次大作業,所以可能部分內容有充字數的嫌疑,還望各位看官無視。。。但是也正因爲此,本文對一些基礎概念描述的也挺詳細,包括但不限於S

原创 阿里雲CentOS下Hexo+Nginx建站過程

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 講Hexo建站的有很多,但幾乎都是用Hexo和Github||coding.net上搭建的,再加上其中有好多是在Windows版本下的,所以本文可能是國內首個

原创 浪潮集羣上使用Hadoop和Spark

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 忙活了半天,終於在實驗室的浪潮集羣中配置好了hadoop和spark,以後能用配置這麼高的服務器了,想想就好開心~ 環境簡介 軟件版本 Hadoop版本號

原创 Spark MLlib中KMeans聚類算法的使用

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 KMeans是一種典型的聚類算法,本文通過代碼來演示用spark運行KMeans算法的一個小例子。 算法簡介 KMeans算法的基本思想是初始隨機給定K個簇

原创 TensorFlow進一步優化神經網絡

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 在本站的這篇文章《TensorFlow實現簡單神經網絡》中,我們用TensorFlow實現了對MINST手寫數字集的分類,分類的準確率達到了92%,本文中將優化此神

原创 TensorFlow實現簡單神經網絡

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 在上文(TensorFlow快速上手)中,我們介紹了TensorFlow中的一些基本概念,並實現了一個線性迴歸的例子。 本文我們趁熱打鐵,接着用TensorFlow

原创 TensorFlow快速上手

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 TensorFlow是目前很火的一款深度學習框架,其源碼是用C++寫的,保證了運行速度,其又提供了Python的接口,大大降低了程序猿們學習新語言的成本,所以在深度

原创 ThoughtWorks校招作業之小型文本預處理器

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 本文是ThoughtWorks校園招聘的一道作業題,要求做一個小型文本預處理器,題目看似簡單,實際做起來還是挺有挑戰性的。現在早已經過了Thoughtworks的作

原创 Xv6學習小記(二)——多核啓動

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。(注:本文代碼中的註釋很重要,如看不清,可移步我的個人博客中查看) 在上文(Xv6學習小記(一)——編譯與運行)中,我們介紹了Linux下編譯運行Xv6系統的方式。

原创 Spark ML中Pipeline、特徵轉換和決策樹分類算法的使用

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 Spark中有關機器學習的庫已經在從MLlib往ML逐步遷移了,MLlib庫也將在Spark 3.0後停止維護,所以我們需要儘快熟悉ML庫。 在Spark ML庫中,

原创 Spark從外部數據集中讀取數據

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 本文將介紹幾種從Spark中讀取數據存入RDD的方式,分別是 - 從HDFS中讀數據 - 從MySQL數據庫中讀數據 - 從HBase數據庫中讀數據 本文中涉及

原创 Spark讀取文本文件並轉換爲DataFrame

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 Spark ML裏的核心API已經由基於RDD換成了基於DataFrame,爲了使讀取到的值成爲DataFrame類型,我們可以直接使用讀取CSV的方式來讀取文本文件,

原创 Spark中基於神經網絡的MLPC(多層感知器分類器)的使用

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 MLPC(Multilayer Perceptron Classifier),多層感知器分類器,是一種基於前饋人工神經網絡(ANN)的分類器。Spark中目前僅支持此種

原创 Spark RDD的簡單使用

本文首發於我的個人博客QIMING.INFO,轉載請帶上鍊接及署名。 RDD(Resilient Distributed Dataset)即彈性分佈式數據集。 RDD是Spark的核心,在Spark中,對數據的所有操作不外乎創建RDD、轉