原创 數據預處理:使用Hive,Scipy 和 data.describe( )處理缺失值的方法

在數據預處理過程中,空值的處理主要有以下三種處理方式: 刪除記錄:當原始數據量大,空值數據所佔比例較小,對結果影響不大時,可以對其進行丟棄處理。 插值:當原始數量較少,直接刪除空值會造成樣本量不足,可能會改變變量的原有分佈。此時,可以利用

原创 學習筆記之產品埋點

           昨天和做經營分析的師妹聊天,說到產品埋點,不太清楚具體含義,於是今天來學習了。和數據挖掘建模時選擇的“指標”。   數據埋點屬於數據採集的階段,是互聯網分析業務閉環中的起點,爲之後的許多日常及專題的分析提供數據源  

原创 Error: git pull 同步遠程代碼後 文件夾大小寫未同步的問題

這個問題發生在本地項目文件夾由 “usergroup”變更爲“userGroup”後,提交代碼後,未識別文件夾大小寫發生變化,文件夾恢復爲了更改前的 “usergroup” 查找問題:                  git默認是不區分

原创 百萬級數據量,千萬級數據量是多少,海量數據的優化方案

百萬級數據量,千萬級數據量是多少? 這裏的百萬級,千萬級,針對數據庫,指的是表的數據條數。有時也指併發事務量。   海量數據的優化方案 Note:    具體優化要結合自身的業務特性 百萬級:         這個數據量基本上大家都經歷過

原创 antd組件DatePicker, RangePicker日期選擇器的格式化方法 moment.js

在使用antd的日期選擇器時,發現返回的日期格式是moment的默認格式,但是需求是需要前端給後端傳送格式爲: startDate = ‘YYYY-MM-DD’ endDate = 'YYYY-MM-DD' 轉化前,前端使用 RangeP

原创 Python 函數 lambda( ), map( ), reduce( ), filter( ) 舉例詳解

Python 支持用 lambda 對簡單的功能定義 “行內函數” 1.例如: f= lambda x: x+2 #定義函數 f(x)=x+2 g= lambda x,y: x+y #定義函數 g(x,y)=x+y  

原创 數據預處理之數據相關性分析

相關性分析:         分析連續變量之間線性相關程度的強弱,並用適當的統計指標表示出來的過程成爲相關分析 計算相關係數:   1.Person 相關係數:      要求連續變量的取值服從正態分佈,一般用於分析連續性變量之間的關係

原创 數據結構基礎之數組、鏈表、棧、隊列、哈希表的學習筆記

原文鏈接:https://me.csdn.net/bjweimengshu 目錄 時間複雜度 空間複雜度 數組 array 鏈表 linked list   棧  stack 隊列  stack

原创 GeneDataBase 基因數據庫調研資料

DNA序列 DNA序列或基因序列是使用一串字母表示的真實的或者假設的攜帶基因信息的DNA分子的一級結構。 可能的字母只有A,C,G和T,分別代表組成DNA的四種核苷酸——腺嘌呤,胞嘧啶,鳥嘌呤,胸腺嘧啶。每個字母代表一種鹼基,兩個鹼基形成

原创 數據結構基礎之二叉樹的深度優先遍歷、廣度優先遍歷

原文鏈接:https://me.csdn.net/bjweimengshu     什麼是二叉樹? 樹的每個節點最多有2個孩子節點。 注意,最多有2個,也可能1個或0個。 什麼是滿二叉樹? 所有

原创 informix實例初始化時報錯 init:Fatal error in shared memory initialization

初始化硬盤空間: 執行 oninit -ivy 若出現shared memory相關錯誤,說明在配置完成之前執行過初始化命令,這時,應該將 onconfig 文件中的  FULL_DISK_INIT 設置爲 -1,再重新執行 初始化命令。

原创 Informix REHL6.4在 linux 平臺的安裝配置流程

安裝 step1 準備 下載 IIF.11.70.UC8.LINUX.X86.32.ML.tar 壓縮包; 解壓:tar -xvf IIF.11.70.UC8.LINUX.X86.32.ML.tar step2 創建 informix 用

原创 MySQL

ENGINE 存儲引擎:  MySQL中的數據用各種不同的技術存儲在文件(或者內存)中。這些技術中的每一種技術都使用不同的存儲機制、索引技巧、鎖定水平並且最終提供廣泛的不同的功能和能力。通過選擇不同的技術,你能夠獲得額外的速度或者功能,從

原创 如何查找python模塊放在計算機的什麼位置

 如何查找python模塊放在計算機的什麼位置 在IDLE中運行以下命令: import sys; sys.path 怎樣在python代碼中加入註釋? 使用三組雙引號: """這裏是註釋""" 常用快捷鍵? Alt+p   前一

原创 PyMySQL 的依賴庫

在 Python 中,Pandas 庫本身可以利用 read_sql( ) 函數來讀取數據庫,但是它依賴於 SQLAlchemy, 而SQLAlchemy 又依賴於 PyMySQL。 因此,安裝 SQLAlchemy 前,需要安裝 PyM