原创 Deep Learning Based Text Classification (文本分類綜述)

Deep Learning Based TextClassification: A Comprehensive Review 論文來源:https://arxiv.org/abs/2004.03705 2020年4月份的一篇文本分類相關的

原创 NG機器學習總結-(三)線性迴歸

在前面已經簡單介紹了迴歸問題(預測房價),其實在統計學中,線性迴歸(Linear Regression)是利用被稱爲線性迴歸方程的最小平方函數(Cost Function)對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。這種函數

原创 NG機器學習總結-(四)邏輯迴歸

在第一篇博客NG機器學習總結一中,我們提到了監督學習通常一般可以分爲兩類:迴歸和分類。線性迴歸屬於迴歸問題,例如房價的預測問題。而判斷一封郵件是否是垃圾郵件、腫瘤的判斷(良性還是惡性)、在線交易是否欺詐都是分類問題,當然這些都是二分類的問

原创 100天搞定機器學習(100-Days-Of-ML)(七)Numpy數組基礎

第七天 Numpy的學習(一)數組基礎 Python中的數據操作幾乎等同於Numpy數據操作,甚至Pandas工具也是構建在Numpy數組的基礎之上的。 一、從Python列表創建數組 1.首先,可以用np.array從Python列表創

原创 CNN經典算法AlexNet介紹(論文詳細解讀)

本文是深度學習經典算法解讀的一部分,原文發之:https://www.datalearner.com/blog/1051558603213207 來源論文:Krizhevsky, Alex, Ilya Sutskever, and Geo

原创 kaggle經典比賽總結(一)Stacked Regressions to predict House Prices

kaggle經典比賽優秀社區總結:Stacked Regressions to predict House Prices 本文主要講述特徵工程和Stacking迴歸模型,可以說本文是新手入kaggle必經歷的過程。本篇文章主要講述上如何在

原创 100天搞定機器學習(100-Days-Of-ML)(十八)K-means聚類

第十八天 K-means聚類 無監督學習(Unsupervised Learning),顧名思義,就是不受監督的學習,一種自由的學習方式。該學習方式不需要先驗知識進行指導,而是不斷地自我認知,自我鞏固,最後進行自我歸納,在機器學習

原创 最大似然損失與最小化交叉熵損失的異曲同工之妙

一、邏輯迴歸與softmax函數 在邏輯迴歸問題中,我們使用sigmoid函數將線性模型的連續值映射到0~1的區間上,設置一定的閾值(二分類問題,大於閾值設置爲1,小於閾值設置爲0),從而得到某個類別的概率。如果將這個問題泛化,推廣到多分

原创 kaggle經典比賽總結(二)CNN入門-數字識別

Introduction to CNN Keras — Acc 0.997 數字識別-CNN介紹 Kaggle鏈接:https://www.kaggle.com/yassineghouzam/introduction-to-cnn-ker

原创 優化算法(從梯度下降到Adam算法)

從梯度下降、動量法、AdaGrad、RMSProp、AdaDelta到Adam算法總結。 1.優化與深度學習 在一個深度學習問題中,我能通常會預先定義一個損失函數。有了損失函數以後,我們就可以使用優化算法試圖將其最小化。在優化中,

原创 Python網絡爬蟲-模擬Ajax請求抓取微博

Python模擬Ajax請求 有時候我們在用requests抓取頁面的時候,得到的結果可能和在瀏覽器中看到的不一樣:在瀏覽器中可以看到正常顯示的頁面數據,但是使用requests得到的結果並沒有。這是因爲requests獲取到的都是原始的

原创 Python網絡爬蟲-BeautifulSoup使用

BeautifulSoup是一個強大的網頁解析工具,它藉助網頁的結構和屬性等特性來解析網頁。有了它就不用再去寫一些複雜的正則表達式來匹配我們想要的信息,只需要簡單的幾條語句就能完成網頁中某個元素的提取。 一、簡介 簡單來說,Beautif

原创 推薦算法概述

內容主要是圍繞電商中用到的一些推薦算法。 一、推薦系統介紹 1.信息過載 社交網絡和大數據時代,這是一張很著名的圖,圖的標題是互聯網上的一分鐘,例如在Twitter上一分鐘會更新452000條推特,Instagram一分鐘會更新46200

原创 Python網絡爬蟲-抓取貓眼電影TOP100

本節將使用簡單的requests庫和正則表達式來獲取貓眼電影網站TOP100的電影相關數據。 1. 目標 爬取貓眼電影TOP100的電影相關數據如電影名稱、演員、評分等(https://maoyan.com/board/4),並保存到文件

原创 Python網絡爬蟲-使用Selenium爬取京東商品

Python網絡爬蟲-模擬Ajax請求抓取微博中我們瞭解了Ajax的分析和抓取的方式,但是有很多的網站即使是Ajax來獲取的數據,但是其Ajax接口含有很多加密參數,我們很難找出其中的規律,也就很難直接使用Ajax來抓取。 爲了解決這些問