原创 淺談管理數據平臺的一些想法

前言: 對於任何使用大數據技術的公司來說,大數據平臺特別是Hive來說,維護其高效快速的運行,對整個公司的運作來說至關重要。比如說:某個調度任務失敗了造成業務部門的某些報表無法正常產出;hive平臺最近速度下降了,造成業務跑sql

原创 SparkSQL-從0到1認識Catalyst

文章目錄前言正文預備知識-Tree&RuleCatalyst工作流程ParserAnalyzerOptimizerSparkSQL執行計劃 前言 這篇文章是轉載一位大神的文章,爲什麼要轉載的,實在是因爲寫的太經典了,所以忍不住希望

原创 SQL中基於代價的優化

還記得筆者在上篇文章無意中挖的一個坑麼?如若不知,強烈建議看官先行閱讀前面兩文-《SparkSQL Join原理》和《Join中竟然也有謂詞下推?》 第一篇文章主要分析了大數據領域Join的三種基礎算法以及各自的適用場景,第二篇文

原创 Linux命令三劍客:grep、sed、awk總結

文章目錄前言一、grep命令語法實例grep結合pattern正則二、sed命令語法案例三、awk命令語法實例 前言 最近看到了幾篇關於linux命令grep、sed、awk的文章,這裏總結下,方便後面使用。 一、grep gre

原创 智能外呼系統相關資料總結

以下是從零開始搭建智能外呼系統的過程中收集的一些資料,希望對你會有幫助。 1、如何從零開始搭建智能外呼系統 參考:https://blog.csdn.net/pA2elX78qaJTADH/article/details/8135

原创 機器學習之樸素貝葉斯算法的推理及相關知識總結

文章目錄1、樸素貝葉斯公式1.1、貝葉斯公式的應用2、瞭解貝葉斯網絡2.1、知道什麼是貝葉斯網絡2.2、貝葉斯網絡的兩種表示形式2.3、掌握全連接的貝葉斯網絡的公式2.3、知道條件概率表參數個數分析的方法2.4、掌握變量聯合分佈概

原创 Python基礎總結之常用內置方法總結

文章目錄前言1、str1.1、內置方法:1.2、常用的內置方法1.3、String模塊的一些方法2、list2.1、內置方法2.2、常用內置方法3、tupple3.1、內置方法3.2、常用內置方法4、dict4.1、內置方法4.2

原创 機器學習之EM算法的原理推導及相關知識總結

文章目錄1、知道先驗概率和後驗概率2、瞭解高斯混合模型GMM3、通過最大似然估計推導EM算法的過程的實例4、EM算法5、知道pLSA模型 1、知道先驗概率和後驗概率 先驗概率(prior probability)是指根據以往經驗和

原创 機器學習之聚類算法的原理推導及相關知識總結

文章目錄1、知道幾個關於"差"的概念2、理解相似度度量的各種方法和相互關係2.1、歐氏距離2.2、jaccard相似係數2.3、餘弦相似度2.4、Pearson相似係數2.5、相對熵3、掌握掌握K-Means算法3.1、知道聚類的

原创 Pandas常用操作總結

文章目錄前言1、DF常用的兩種創建方式方式一:通過np來生成方式二:通過字典來生成2、pandas常用的屬性及方法3、Pandas Select(數據選擇)4、Pandas Set_values設置值5、Pandas Nan處理缺

原创 機器學習之凸優化原理推導及相關知識總結

文章目錄目錄1、瞭解凸集和仿射集的基本概念。2、知道幾何體的向量表達。3、瞭解超平面和半空間的概念。4、瞭解分割超平面和支撐超平面的含義。5、知道jensen不等式。6、掌握知識:凸函數。7、掌握凸優化 目錄 1、瞭解凸集和仿射集

原创 Freeswitch之ASR(語音識別)總結大全

文章目錄1、使用Pocket Sphinx進行英文語音識別2、PocketSphinx語音識別系統語言模型的訓練和聲學模型的改進3、PocketSphinx語音識別系統的編譯、安裝和使用4、FS之play_and_detect_s

原创 Freeswitch總結大全

文章目錄1、Freeswitch安裝2、Freeswitch中文文檔3、Freeswitch的event socket event list的中文簡介4、freeswitch之sip協議的註冊、呼叫、掛斷流程5、Freeswitc

原创 Pycharm常用高效技巧總結

文章目錄1、PyCharm如何自動生成函數註釋2、pycharm運行程序時在Python console窗口中運行3、Pycharm在創建py文件時,如何自動添加文件頭註釋4、Pycharm配置遠程調試5、pycharm同一目錄下

原创 淺談數據平臺的維穩的一些想法

前言: 對於任何使用大數據技術的公司來說,大數據平臺特別是Hive來說,維護其高效快速的運行,對整個公司的運作來說至關重要。比如說:某個調度任務失敗了造成業務部門的某些報表無法正常產出;hive平臺最近速度下降了,造成業務跑sql