實用機器學習筆記八：特徵工程

原創

2021-12-16 10:43

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"前言：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 本文是個人在 B 站自學李沐老師的實用機器學習課程【斯坦福 2021 秋季中文同步】的學習筆記，感覺沐神講解的非常棒 yyds。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"爲什麼需要特徵工程：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 首先應該弄明白什麼是特徵工程，他應該算是一個技術，就是對數據集進行特徵提取，以使機器學習模型在對經過特徵工程處理過的數據進行學習時可以更快，精度更高，效果更好。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 現在來說說爲什麼要進行特徵工程：在深度學習大火之前，傳統的機器學習模型是比較常用的，因此在進行學習的之前，需要把數據處理成模型喜歡的數據形式（","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"這個過程往往是人們手動來設計的","attrs":{}},{"type":"text","text":"），因爲機器學習算法比較“喜歡”固定長度的輸入輸出。這是一個非常關鍵的技術。比如在計算機視覺中，常常把圖片進行處理成一個向量等來訓練一個SVM模型。在深度學習技術成熟之後，人們開始使用神經網絡來進行特徵抽取（","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"讓特徵工程更加簡單","attrs":{}},{"type":"text","text":"），但是並","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"沒有改變特徵工程的這個過程以及地位","attrs":{}},{"type":"text","text":"。而且神經網絡可以不斷地改變參數來更好的去抽取特徵，","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"缺點","attrs":{}},{"type":"text","text":"就是需要大量的數據和資源。","attrs":{}}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/0e/0eb667b960f49173c45d6cdacf4076f9.png","alt":null,"title":"特徵提取變化","style":[{"key":"width","value":"25%"},{"key":"bordertype","value":"boxShadow"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"表格類數據特徵：","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"int/float類型數據","attrs":{}},{"type":"text","text":"：直接使用原始數據。或者是根據這列數據的最大值和最小值，然後分成n個相等的區間。那麼每一個數會落到這n個區間中的一個區間中，這樣一個實數就被展開成一個長度爲n的向量，並且實數落到哪個區間這個區間所在位置就是1。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"比如：","attrs":{}},{"type":"text","text":"在前面房子數據集中，一套房子房價爲100萬，和一套房子101萬其實區別不是很大，但是如果直接輸入原始數據的話，模型看到這兩個數據不一樣，就會比較在意這個區別，但是如果被使用這種切分數據區間的方式的話，就是告訴模型，不用在意這個1萬的差距。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"分類數據","attrs":{}},{"type":"text","text":"：一般獨熱編碼（one-hot）。示例如下：","attrs":{}}]}]}],"attrs":{}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/86/8666f7a7523e6e5071aa7fae7808df1c.png","alt":null,"title":"獨熱編碼\n","style":[{"key":"width","value":"50%"},{"key":"bordertype","value":"boxShadow"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 首先會有一個字典，裏面有類別清單。如果某個數據是貓，那麼在獨熱編碼的特徵向量裏，只有貓對應的位置爲1，其他位置爲0。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"另外：","attrs":{}},{"type":"text","text":"還是根據房子數據集來說事，一般情況下，房子的類別不過是十幾種，但是在數據集中房子類別出現了上百上千種，實際上類別也就前十種比較重要，其他可能是噪音或者是非常不重要，可以忽略，那麼我們在處理數據時，就可以把除前十種之外的類型設置爲unknown。","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"時間數據","attrs":{}},{"type":"text","text":"：可以使用如下方式：因爲如果只有年月日的話，就分不出工作日還是週末，但是人在週末和工作日會做不同的事情，使用如下的編碼方式，可以儘量讓機器學習算法可以學到這些特徵。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":6,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"[year, month, day, day_of_year, week_of_year, day_of_week]","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"特徵組合","attrs":{}},{"type":"text","text":"：可以讓機器學習算法學習到兩兩特徵之間的關係。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":1,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"[cat, dog]* [male, female]---->","attrs":{}}]},{"type":"paragraph","attrs":{"indent":1,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"[(cat, male), (cat, female), (dog, male), (dog, female)] 同樣是獨熱編碼","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"文本特徵：","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"詞元（token）特徵：","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":1,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"Bag of words(BoW) model：","attrs":{}},{"type":"text","text":"前提是有一個完整的字典。文本中的每一個在數據處理時就已經別分成了一個個單獨的詞（也就是詞元），然後對每一個詞根據字典進行獨熱編碼，接着把這句話中的每一個詞的獨熱編碼相加。實例如下：","attrs":{}}]}]}],"attrs":{}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/be/be10025708e0bc3ad61da23bde99c600.png","alt":null,"title":"BoW模型\n","style":[{"key":"width","value":"50%"},{"key":"bordertype","value":"boxShadow"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 缺點：需要認真設計詞典，不能太大也不能太小。破壞了一個句子的時序信息。","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":1,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"詞嵌入（Word Embeding）: ","attrs":{}},{"type":"text","text":"先訓練一個詞嵌入模型","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"，","attrs":{}},{"type":"text","text":"常見的是word2vec，他會把一個詞表示成一個向量，這個向量是帶有語義信息的。如果兩個詞向量內積越小，就表示這兩個向量比較接近，也就是說這兩個詞語義相近。這是","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"因爲","attrs":{}},{"type":"text","text":"Word2vec在訓練時是通過一個詞的上下文進行訓練的。那麼","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"這句話的詞嵌入表示","attrs":{}},{"type":"text","text":"如何得到呢？把每個詞輸入到word2vec，得到沒個詞的向量，然後向量相加或者平均。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"預訓練好的語言模型（BERT,GPT-3）：","attrs":{}},{"type":"text","text":"以上兩個模型都是模型參數很大，裏面有包含目前最流行的transformer。而且是使用大量的無標註的數據自監督學習來訓練，可以抽取很好地數據特徵。缺點就是比較貴。他的作用和Word2vec一樣輸出每個單詞的詞向量。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"圖片和視頻特徵：","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"傳統的方法：","attrs":{}},{"type":"text","text":"傳統的方法通常是手工來抽取，比如SIFT。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"現在的神經網絡方法：","attrs":{}},{"type":"text","text":"深度學習流行之後，使用預訓練好的深度神經網絡來進行特徵抽取。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"比如：","attrs":{}},{"type":"text","text":"事先在ImageNet數據集上訓練好了一個ResNet模型。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"那如何拿到抽取的特徵呢？","attrs":{}},{"type":"text","text":"把圖片輸入到這個訓練好的模型裏面，然後在這個模型要做分類的那層神經網絡的前一層（也就是輸出層開始算的倒數第二層）的輸出結果拿出來就是抽取的特徵，可以把這個特徵拿出來用到別的任務中。圖示如下：","attrs":{}}]}]}],"attrs":{}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/d0/d06d7f7884847db4cb0c59cd1c6dfa4a.png","alt":null,"title":"預訓練模型抽取特徵","style":[{"key":"width","value":"50%"},{"key":"bordertype","value":"boxShadow"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ollama使用

ollama 僅支持。gguf的格式其他格式需要llama.cpp 轉換 curl https://ollama.ai/install.sh | sh ollama --version ollama pull llama2-chin

2024-05-01 00:42:55

「Qt Widget中文示例指南」如何實現一個快捷編輯器（一）

Qt 是目前最先進、最完整的跨平臺C++開發工具。它不僅完全實現了一次編寫，所有平臺無差別運行，更提供了幾乎所有開發過程中需要用到的工具。如今，Qt已被運用於超過70個行業、數千家企業，支持數百萬設備及應用。快捷編輯器示例展示瞭如何創建一

2024-04-30 23:36:29

解鎖HDC 2024之旅：從購票到報名，全程攻略

本文分享自華爲雲社區《解鎖HDC 2024之旅：從購票到報名，全程攻略》，作者：華爲雲社區精選。 Hi，代碼界的小夥伴們，集結號已經吹響了！華爲開發者大會（HDC 2024）——這場匯聚了HarmonyOS NEXT鴻蒙星河版、盤古大模型5

2024-04-30 22:34:35

銀行核心背後的落地工程體系丨Oracle - TiDB 數據遷移詳解

本文作者：張顯華，孟凡輝，莊培培系列導讀：徐戟（白鱔）數據庫技術專家，Oracle ACE，PostgreSQL ACE Director 當前，國內大量的關鍵行業的核心繫統正在實現國產化替代，而與此同時，這些行業的數字化轉型也正在進入

2024-04-30 22:24:59

30 秒出服裝設計稿，森馬用函數計算+AIGC 整“新活”!

創新項目如何去賦能我們的業務，這件事情在森馬很重要。阿里雲函數計算幫我們屏蔽掉了想把AI落地到實際業務場景中 GPU 算力資源儲備、採購成本、技術門檻等很多難題，從而迅速做出決策，快人一步站在正確的起點，體驗新技術對整個服裝爆款設計、營銷

2024-04-30 21:12:14

消金公司2023財報解析：息差維持高位，信用成本攀升

來源 | 鐳射財經（leishecaijing） 2023年，是持牌消金行業承上啓下的關鍵一年，也是鍛造韌性、比拼內功最緊張的一年。一方面，住戶短期消費貸款餘額在2022年觸底後，伴隨經濟復甦、消費提振，於2023年重新回到上行軌道。短

2024-04-30 13:11:32

Linux下製作Nginx綠色免安裝包

前言 linux下安裝nginx比較繁瑣，遇到內網部署環境更是麻煩，所以研究了下nginx綠色免安裝版的部署包製作，開箱即用，特此記錄分享，一下操作在centos8環境下安裝，如果需要其他內核系統的安裝（Debian/Ubuntu等），請在

2024-04-29 21:38:23

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

圖片旋轉後保存到數據庫

1、圖片通過canvas繪製 2、canvas旋轉 3、canvas 轉成blob 在實例化成文件 4、創建formData裏面append放入文件和其他的參數，再調上傳接口 <div style=" heig

2024-04-29 10:16:22

記一次北京某大學邏輯漏洞挖掘

0x01 信息收集個人覺得教育src的漏洞挖掘就不需要找真實IP了，我們直接進入正題，收集某大學的子域名，可以用oneforall，這裏給大家推薦一個在線查詢子域名的網站：https://www.virustotal.com/ 收集到的子

2024-04-28 22:47:25

1 名工程師輕鬆管理 20 個工作流，創業企業用 Serverless 讓數據處理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

實用分享！用Axure RP構建交互的5個小技巧

Axure RP是一套專門爲網站或應用程序所設計的快速原型設計工具，可以讓應用網站策劃人員或網站功能界面設計師更加快速方便的建立Web AP和Website的線框圖、流程圖、原型和規格。在Axure RP中，交互是創建豐富而逼真的原型的

2024-04-28 11:35:53

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

系統整容紀：責任鏈設計模式的應用實戰（爆燈了，研發工期由45天降爲1天）

本文通過介紹使用責任鏈設計模式的背景和經歷，來使得讀者加深對於此設計模式的印象，甚至受到一定的啓發來對自己當下所參與、所負責的項目進行“整容”，從而提升系統的“美感”。分享工作中的點點滴滴。一、背景在下所負責的系統中有這麼一個模

2024-04-28 11:17:20

24小時熱門文章

最新文章

最新評論文章