原创 pyspark 概述

一、pyspark安裝 略 import pyspark pyspark.__version__ #>>> '2.4.3' from pyspark.sql import sparkSession spark = spa

原创 使用pyspark操作數據庫

文章目錄使用`pyspark`操作數據庫1.`sqlite`篇2.`mysql`篇 使用pyspark操作數據庫 1.sqlite篇 # -*- coding: utf-8 -*- # @Author: xiaodong # @D

原创 supervisor 配置教程

文章目錄1、 pip3 install supervisor2、默認下載路徑是到python3路徑下的bin文件夾裏3、建立軟連接:4、建立配置文件5、在第4步創建的目錄(your-config-dir)中創建配置文件6、添加配置

原创 python 操作數據庫-pandas篇

python 操作數據庫-pandas篇 # -*- coding: utf-8 -*- # @Author: xiaodong # @Date : 2020/4/5 from collections import Count

原创 pyspark 給dataframe增加新的一列

給pyspark中的dataframe新增列 熟悉pandas的pythoner 應該知道給dataframe增加一列很容易,直接以字典形式指定就好了,pyspark中就不同了,摸索了一下,可以使用如下方式增加 from pysp

原创 python 操作數據庫-sqlite篇

作爲一名數據挖掘工程師,除了挖掘算法外,最常打交道的就是各類數據庫了,爲了對自己的工作做個記錄,準備對接觸到的數據庫及相關工具做個通述,因爲只是做個引導,所以不會深入去講,供查閱使用~ target go on… todo

原创 python` 操作數據庫-`mysql`篇

文章目錄1. `pymysql`操作數據庫2.可視化工具推薦 python操作數據庫-mysql`篇 1. pymysql操作數據庫 # -*- coding: utf-8 -*- # @Author: xiaodong # @D

原创 Postgresql (GreenPlum) psycopg2的批量數據插入

psycopg2 數據批量插入問題記錄 由於最近用到greenplum,需要進行一些數據庫批量插入操作,由於其操作方式與postgresql相同,因此採用的是psycopg2(2.8.4) 做底層驅動。 由於數據量較大,所以採用了

原创 redis批量插入

文章目錄Redis 批量插入數據逐條插入批量插入 Redis 批量插入數據 業務需要,每天要向redis插入千萬級別的數據,格式爲zset,但是插入數據時發現速度極慢,約爲200~300條數據/每秒, 這可就不能接受了,這麼算下去

原创 pyspark 使用小記

使用pyspark時有時候會報錯如下: ValueError: Cannot run multiple SparkContexts at once; existing SparkContex… 這是因爲spark不允許一次運行多個

原创 簡易統計Python有效代碼行數

有的時候看源碼或者py文件時,想知道有效代碼行數是多少,即除了註釋外的所有行數,比如requests源碼中,sessions.py文件,帶註釋共有712行(不知道有沒有更新。。。),去除註釋後統計行數爲326行,你看,這一下子就少

原创 聚類後的類別對應

有時候我們會用sklearn進行數據聚類,但是聚類後如何將預測輸出與實際進行對應,可以考慮如下3個方式: from collections import Counter from sklearn.mixture import G

原创 Python中最大最小賦值小技巧

碼代碼時,有時候需要根據比較大小分別賦值: import random seq = [random.randint(0, 1000) for _ in range(100)] #方法1: xmax, xmin = max(seq

原创 scikit-learn 線性迴歸算法庫小結

In [1]: from sklearn.datasets import load_boston ...: from sklearn import linear_model ...: from sklearn.

原创 爲flask加入WebSockets通信

構建web服務時,有時候需要即時更新網頁內容,如:通知、新加信息等,通過AJAX可以實現不刷新網頁的情況下數據更新,但對於數據何時需要更新,一種方式是客戶端不斷輪詢,另一種方式是服務端數據更新後通知客戶端進行數據更新,顯然後者更優