原创 chp1:推薦系統框架

原文鏈接:https://www.cnblogs.com/redbear/p/8628687.html 一、背景介紹 當下,個性化推薦成了互聯網產品的標配。但是,人們對推薦該如何來做,也

原创 項目開發python-----測試集與訓練集劃分模塊

劃分訓練集與測試集 在進行劃分訓練集與測試集時,需要注意兩點: 1、新的數據過來,你的劃分方法是否仍然有效—唯一標識 解決方法:可以使用哈希規則給每個樣本富賦予唯一的標識,也可以對每個樣本按照行索引作爲標識,但是需要確保新數據放在

原创 作爲程序員的學習資料

文章說明: 本篇文章彙總了一些軟件以及代碼學習資料鏈接,作爲一個算法工程師,需要掌握很多方面的知識,算法、數據庫、編程、大數據等,不斷學習是必須的。 常用的學習平臺有:簡書(用戶(SeanCheney)文章不錯)、CSDN、博客園

原创 項目開發python----數據預處理模塊

預處理必要性 在將數據放入到模型中訓練之前,數據通常是很髒的,可能存在缺失、數據類型不統一、存在異常值、需要標準化處理等。 一般來說,預處理包括數據填充、數據標準化、特徵編碼、數據離散化等步驟。特別注意,在這些工作之前,你需要了解

原创 SparkSession使用

介紹:SparkSession 是 Spark SQL 的入口。使用 Dataset 或者 Datafram 編寫 Spark SQL 應用的時候,第一個要創建的對象就是 SparkSession。你可以通過 SparkSession

原创 SparkR的安裝配置以及數據分析

1.1. R與Rstudio的安裝 1.1.1. R的安裝 我們的工作環境都是在Ubuntu下操作的,所以只介紹Ubuntu下安裝R的方法: 1) 在/etc/apt/sources.list添加源

原创 數據結構-------排序算法詳解(面試必備)

數據結構——排序 對於各個排序的C++或者C的編程實現網上很容易找到,也有不少的帖子對這這些排序有總結,看了很多好多沒有將例子的過程寫清楚,僅僅是寫了排序思想或者排序過程很簡陋,不詳細。 1、插入排序–O(n^2) 插入排序是一種最

原创 模型優化、正則化、損失函數

一、前言 對於理解機器學習或者深度學習的人來說,需要了解基本的學習框架是什麼?無論是聚類、迴歸,對於參數的求解以及參數的正則化(防止過擬合的措施)來源於什麼原理或者基於什麼?,這是需要我們理解的。一般而言從誤差出發,有式子: Los