原创 應用數理統計第三次作業

18大數據 LD 180*******511 23. ξˉ∼N(α,σ2n)(ξn+1−ξˉ)∼N(0,(n−1)σ2n)n(n−1)σ(ξn+1−ξˉ)∼N(0,1)(n+1)S2σ2∼χ2(n)\begin{alignedat

原创 數據挖掘導論學習筆記 第六章 關聯分析:基本概念和算法

6.1問題定義 關聯分析(association analysis) 用於發現隱藏在大型數據集中有意義的聯繫,所發現的聯繫可以用關聯規則或者頻繁項集的形式表示 項集和支持度計數 以購物籃數據集爲例 TID 麪包 牛奶 尿布

原创 數據挖掘導論學習筆記 第四章 分類:基本概念、決策樹與模型評估

4.1預備知識 分類任務的輸入數據是記錄的集合 每條記錄也稱實例或者樣例,用元組(x,y)(x,y)(x,y)表示,xxx是屬性的集合,y是樣例的類標號(也成爲分類屬性或目標屬性) 類標號必須是離散的,但屬性值可以是連續的 分類

原创 2020美賽C題賽後總結之——latex排版

1. Mcmthesis模板 Latex編輯軟件中自帶了mcmthesis模板。使用時只需要\document{mcmthesisi}就可以了。 點擊這裏可以進一步瞭解關於該模板的一切。 在導言區可以設置一些參數。下面我對這些參數

原创 關於筆者的博客聲明

筆者爲大數據本科在讀學生,將學習過程中的所得所思留存下來,主要目的是爲了筆者日後複習,次要目的是爲大家提供一些參考。 因此,一些筆者已經掌握的知識並沒有詳細的寫在文中,請大家見諒。如果文中有錯誤,歡迎大家留言或私信指出,如果對您有

原创 關於國賽Latex模板編譯報錯的問題

關於國賽Latex模板編譯報錯的問題 首先把模板連接分享一下:國賽latex模板 近日備戰國賽,在網上下載了一個latex的國賽模板。編譯時一直報錯 說是我缺少simsun字體。 首先聲明我電腦的系統是MAC,所以下載的是MACt

原创 如何一勞永逸的解決matplotlib中文字體無法顯示問題(Mac)

使用matplotlib畫圖時中文無法顯示,那麼用以下辦法可以一勞永逸的解決這個問題。 首先下載字體simHei https://blog.csdn.net/jlb1024/article/details/98037525 然後雙

原创 2020泰迪杯C題解題流程

注:本文爲賽前所寫,僅隊內提供大致思路,和實際的解題流程有一定出入,僅供參考,有一些錯誤,筆者並沒有更正(主要是沒空),如想深入交流請私信。 1.對留言進行分類 1.1對數據進行分析。 觀察數據集規模,是否有空值,是否重複記錄

原创 2020美賽C題賽後總結之——文本預處理Pyhotn編程代碼

1.背景介紹 美賽C題涉及到文本處理之間的工作,筆者學藝不精,廣爲蒐羅了很多代碼加以完善改進,封裝成一個個的函數,這些函數都很有針對性,主要應用於文本預處理包括,排序、分詞、獲取語料庫、去標點、統計詞頻、特徵提取、詞性還原、去停用

原创 python 讀取文件

原创 Anaconda安裝jieba庫

conda install -c conda-forge jieba 試過n多種方法都不行 last, 一行代碼定乾坤 mlgbd我發現值代碼還可以安裝ntlk 把jieba改一下就行了 借鑑https://blog.csdn.

原创 數據挖掘導論學習筆記 第五章 分類算法

5.1基於規則的分類器 基於規則的分類器的規則用析取範式R=(r1∨r2∨⋯∨rk)R=(r_1\lor r_2 \lor \cdots \lor r_k)R=(r1​∨r2​∨⋯∨rk​)表示。R稱作規則集,rir_iri​是分

原创 數據挖掘導論學習筆記:第三章 探索數據

3.1鳶尾花數據集 這個數據集包含150種鳶尾花信息,每50種取自三個鳶尾花種之一:Setosa、Versicolour、Virginica。 屬性描述: 萼片長度(cm) 萼片寬度(cm) 花瓣長度(cm) 花瓣寬度(cm)

原创 用Matlab對NC文件進行處理和分析雜談(附數據集鏈接)

NetCDF(network Common Data Form)網絡通用數據格式是由美國大學大氣研究協會(University Corporation for Atmospheric Research,UCAR)的Unidata