Stanford機器學習第一週：機器學習概念及單變量線性迴歸

原創

2020-07-05 18:06

一、引言

1.1 機器學習定義

提問：

1.2 監督學習

Eg1:

預測房價的例子：橫軸表示房子的面積，單位是平方英尺，縱軸表示房價，單位是千美元。那基於這組數據，假如你有一個朋友，他有一套750平方英尺房子，現在他希望把房子賣掉，他想知道這房子能賣多少錢。

從圖中可以看出直線擬合數據，預測這套房子可能賣$150, 000；二次函數來擬合數據，預測房子可能賣$200, 000。這是預測連續的數值，這是一個迴歸問題。

Eg2:

預測腫瘤惡性（malignant）還是良性（benign）：集中，橫軸表示腫瘤的大小，縱軸上，我標出1和0 表示是或者不是惡性腫瘤。

圖中我們有5個良性腫瘤樣本跟5個惡性腫瘤樣本，現在假設一個人的腫瘤尺寸是橫軸上粉色箭頭位置那麼大，那麼機器學習要做的就是估算這個腫瘤是惡性還是良性的概率。這是預測離散的值，是一個分類問題。

有些機器學習問題，遇到的特徵不止一種。比如我們知道腫瘤的尺寸、患者的年齡這兩個特徵（通常採用的特徵有腫塊密度、尺寸一致性、形狀一致性等）

通過機器學習算法用圖中直線分類兩種腫瘤（良性的腫瘤改成用O表示，惡性的繼續用X表示）。圖中粉紅色的瘤位於良性區域，是良性腫瘤的概率大。

概括一下，監督學習的思想是：數據集中的每個樣本都有對應的標籤，再根據這些樣本集來預測未知樣本的結果。預測房子的價格這類預測連續的值屬於迴歸問題，預測腫瘤的結果這類預測離散的值屬於分類問題。

提問：

1.3 非監督學習

無監督學習是把不帶標籤的數據分成不同的聚類（聚類只是無監督學習中的一種）。谷歌新聞每天都在收集非常非常多的網絡新聞內容。它再將這些新聞分組，組成有關聯的新聞。所以谷歌新聞做的就是搜索非常多的新聞事件，自動地把它們聚類到一起。所以，這些新聞事件全是同一主題的，所以顯示到一起。

Eg:

雞尾酒宴問題，宴會上兩個人同時說話，麥克風會同時錄下兩個人的聲音，把每個人的聲音單獨的分離出來就屬於無監督學習

看上去這個算法會很複雜，實際上這個算法可以用一行代碼來完成

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

使用Octave或Matlab，很多算法都可以用幾行代碼來實現，這也是本視頻採用Octave或Matlab編程的原因。

提問：

二、單變量線性迴歸

2.1 模型表示

訓練集

監督學習算法工作原理

只有一個變量x,所以是單變量線性迴歸

2.2 代價函數

有了訓練集，有了假設函數，我們要做的就是如何選擇和這兩個參數

我們的目標就是使得代價函數最小。

2.3 代價函數直觀理解 I

下圖中簡化，並且圖中的，可以計算得到代價函數，即

同樣的方法可以得到=0.5，0，1.5……時的值，得到的圖形如下，從圖中可以看出=1時，取最小值0.

2.4 代價函數直觀理解 II

當存在兩個參數、時，代價函數是一個三維函數，其曲面圖像碗狀一樣

接下來用等高線圖來分析，取不同的、時對應的和

從圖中可以看出，在最後一幅圖中，接近於取最小值了。

2.5 梯度下降

下邊倆圖表明：起始點（初始參數）不同，局部最優值不同

梯度下降算法（爲學習率，算法需要同時更新和）：

梯度（gradient）就是J在該點的斜率，有正有負，如下圖所示

關於學習率，如果太小，每次挪動的步子太小，它會需要很多步才能到達全局最低點；如果太大，每次挪動的步子太大，梯度下降法可能會越過最低點，甚至可能無法收斂。

如果將初始化在局部最優值位置，那麼梯度（導數）就會爲0，代入公式後的值將會保持不變

梯度下降算法用時不需要改變學習率，因爲在接近局部最小值時梯度（導數值）會自動減小

2.6 Gradient descent for linear regression

求偏導：

將求得的偏導數代入到梯度下降算法中，得到：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

向量數據庫引領 AI 創新——Zilliz 亮相 2024 亞馬遜雲科技中國峯會

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

圖表控件LightningChart JS v5.2正式發佈 - 全新的開發體驗

LightningChart JS是Web上性能特高的圖表庫，具有出色的執行性能 - 使用高數據速率同時監控數十個數據源。 GPU加速和WebGL渲染確保您的設備的圖形處理器得到有效利用，從而實現高刷新率和流暢的動畫，常用於貿易，工程，航空

2024-05-23 12:20:12

24小時熱門文章

最新文章

最新評論文章