原创 python數據分析與挖掘之聚類kmeans算法

聚類不指定類別進行分類 (劃分(分裂)法,層次分析法、密度分析法)、網格法、模型法     Kmeans算法屬於分裂法 隨機選擇k各點作爲聚類中心 計算各個點到這K個點的距離   將對應的點聚到與它最近的這個聚類中心 重新計算聚類中心 比

原创 按照模板java動態生成word文檔

        最近在做一個出卷系統,需要通過試卷模板從數據庫中抽取題目,然後按照模板的樣式生成完整的試卷,所以研究了一下,通過Java生成word文檔的方法。我嘗試了不同的方法,1、使用freemarker模板生成word文檔;2、使用

原创 python實現支持向量機SVM

支持向量機 支持向量機有兩種:SVC,支持向量分類,用於分類問題;SVR,支持向量迴歸,用於迴歸問題。 線性支持向量機(Linear SVMs):用一個非常有名的用於分類問題的數據集:鳶尾花數據集。它是基於鳶尾花的花萼的長度和寬度進行分類

原创 python人工神經網絡

人工神經網絡在模塊keras中,實現步驟如下: #bp人工神經網絡的實現 #1、讀取數據 #2、導入對應模塊,keras.models  Sequential(建立模型)  |keras.layers.core Dense(建立層)  A

原创 python之迴歸算法

邏輯迴歸 import pandas as pda fname='E:/programCode/huigui.csv' dataf=pda.read_csv(fname) #自變量x x=dataf.iloc[:,1:4].as_mat

原创 python實現Apriori算法

Apriori算法 兩個概念: 支持度:A、B同時發生的概率 置信度:若A發生,B發生的概率 Apriori算法的實現 設定閾值:最小支持度和最小置信度 計算支持度:Supprot(A=>B)=(A與B同時發生的數量)/事件的總數    

原创 python數據分析與挖掘之貝葉斯算法算法實現

代碼中有詳細的註釋 訓練文件: Txt文件中爲0,1矩陣,將圖片轉換爲0,1矩陣見上一篇博客方法 import numpy import operator from os import listdir class Bayes:

原创 python文本相似度計算

相似度計算步驟:: 讀取要計算的多篇文檔 對要計算的文檔進行分詞 對文檔進行整理成指定格式,方便後續計算 計算出詞語的頻率 【可選】對頻率低的詞語進行過濾 通過語料庫建立詞典 加載要對比的文檔 將要對比的文檔,通過doc2bow轉化爲稀疏

原创 python數據建模與KNN算法實現手寫體數字識別

      數據建模指的是對現實世界各類數據的抽象組織,建立一一個適合的模型對數據進行處理。在數據分析與挖掘中,我們通常需要根據一-些數據建 立起特定的模型,然後處理。模型的建立需要依賴於算法, - -般,常見的算法有分類、聚類、關聯、迴

原创 Scrapy框架基於crawl爬取京東商品信息爬蟲

Items.py文件 # -*- coding: utf-8 -*- # Define here the models for your scraped items # See documentation in: # https://d

原创 數據分析之Python數據導入

'''數據導入''' import pandas as pda i=pda.read_csv('E:/programCode/jd.csv',encoding='gb18030') i.describe() #按照某一列進行排序 i.so

原创 python數據分析與挖掘模塊簡介

   所謂數據分析,即對已知的數據進行分析,然後提取出一-些有價值的信息,比如統計出平均數、標準差等信息,數據分析的數據量有時可能不會太大,而數據挖掘,是指對大量的數據進行分析與挖掘,得到一些未知的,有價值的信息等,比如從網站的用戶或用戶

原创 python之matplotlib模塊畫圖

#折線圖/散點圖plot import matplotlib.pylab as pyl import numpy as npy x=[1,2,3,4,8] y=[5,7,9,6,3] pyl.plot(x,y)    #plot(x軸數據

原创 python文本挖掘

import jieba #全模式 sentence='我喜歡武漢歡樂谷' w1=jieba.cut(sentence,cut_all=True)#(句子,模式[True全模式,False精準模式]) for item in w1:

原创 python數據探索與數據清洗

      數據探索的目的是及早發現數據的一些簡單規律或特徵,數據清洗的目的是留下可靠數據,避免髒數據的干擾。這兩者沒有嚴格的先後順序,經常在一個階段進行。 數據探索的核心是:  1、數據質量分析(跟數據清洗密切聯繫) 2、數據特徵分析(