原创 mllib之梯度下降公式推導

梯度下降(GD)是最小化風險函數、損失函數的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路,下面從公式和實現的角度對兩者進行分析,如有哪個方面寫的不對,希望網友糾正。 下面的h(x)是要擬合的函數,J(theta)損失函數,

原创 Pig初探

Pig環境安裝 pig的安裝非常簡單,將pig-0.14.0.tar.gz解壓到合適的目錄下 tar -zxvf pig-0.14.0.tar.gz 修改環境變量: #pig export PIG_HOME=/usr/local/c

原创 spark之map與flatMap區別

scala> val m = List(List("a","b"),List("c","d")) m: List[List[String]] = List(List(a, b), List(c, d)) scala> m.flatten

原创 spark WARNTaskSchedulerImpl:Initial job has not accepted any resources; check your cluster UI to

spark在提交任務時,出現如下錯誤: 15/03/26 22:29:36 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your c

原创 spark開發程序編寫注意點

看書時發現書中寫的不一定是正確的。 eg: scala> val line = sc.textFile("hdfs://Spark:9000/user/root/README.md") 15/03/19 20:03:04 INFO Me

原创 mllib:Exception in thread "main" org.apache.spark.SparkException: Input validation failed.

當我們使用mllib做分類,用到邏輯迴歸或線性支持向量機做分類時,可能會出現下面的錯誤: 15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0

原创 後臺執行shell腳本

執行方式: nohup sh export_data.sh 20150102 >20150102.log 2>&1 & [1] 29531 其中 0、1、2分別代表如下含義:  0 – stdin (standard input)

原创 Mahout構建圖書推薦系統【一起學Mahout】

閱讀導讀:1.Mahout中推薦過濾算法支持哪兩種算法?2.用java代碼如何計算男性用戶打分過的圖書?3.itemEuclidean,userEuclideanNoPref分別是什麼算法?1. 項目背景 Amazon是最早的電子商務網

原创 scala併發編程原生線程Actor、Case Class下的消息傳遞和偏函數實戰

參考代碼: import scala.actors._ case class Person(name:String,age:Int) class HelloActor extends Actor{ def act(){ w

原创 BERT原理

    預訓練模型架構中的不同。BERT使用雙向Transformer。OpenAI GPT使用left-to-right的Transformer。ELMo使用訓練好的left-to-right和right-to-left的LSTM的拼接

原创 基於神經雙重蘊含的問題釋義識別

最近在學習自動聊天機器人相關技術時,從paper中學習到卡內基梅隆大學自動問答組設計開發的模型,也是17年自動問答領域效果最好的模型,該模型的目標判斷任意兩個問題是否是同一種含義。對該模型的學習簡記如下:   釋義識別概念 1、兩個問題具

原创 解惑rJava R與Java的高速通道

閱讀導讀:1.什麼是RJava?2.如何安裝RJava?3.如何用RJava實現R調用Java?1. rJava介紹rJava是一個R語言和Java語言的通信接口,通過底層JNI實現調用,允許在R中直接調用Java的對象和方法。rJav

原创 mllib之高數篇

機器學習的目標是:對於給定的一個訓練數據集,通過不斷地分析和學習產生一個聯繫屬性集合和類標的分類函數(Classification Function)或預測函數(Prediction Function),這個函數稱爲分類模型(Class

原创 用Mahout構建職位推薦引擎【一起學Mahout】

閱讀導讀:1.如何設計職位推薦引擎的指標?2.簡述職位推薦引擎所需要的系統架構?3.如何對推薦結果進行人工比較?4.職位推薦引擎中什麼情況的數據最好做排除?1. Mahout推薦系統框架概述 Mahout框架包含了一套完整的推薦系統引擎

原创 spark中各種連接操作以及實用方法

val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val b = sc.parallelize(Array(("123",8.0),("789"