原创 中文分詞工具—Jieba

中文分詞—Jieba 是一款Python 中文分詞組件 “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python C

原创 lightGBM使用教程

最近在參加騰訊2018 廣告大賽時,遇到到的知識點做一個分享! LightGBM(Light Gradient Boosting Machine)是一個基於梯度 boosting 框架, 使用決策樹爲其學習算法. 它是分佈式的, 高效的。

原创 紅黑樹和AVL樹(平衡二叉樹)區別

一,AVL樹(平衡二叉樹)(1)簡介AVL樹是帶有平衡條件的二叉查找樹,一般是用平衡因子差值判斷是否平衡並通過旋轉來實現平衡,左右子樹樹高不超過1,和紅黑樹相比,AVL樹是嚴格的平衡二叉樹,平衡條件必須滿足(所有節點的左右子樹高度差不超過

原创 【排序方法總結 】希爾排序 快速排序 歸併排序 堆排序等 Python實現

常見的七種排序算法:   外排序:需要在內外存之間多次交換數據才能進行 內排序:                插入類排序                       直接插入排序                      希爾排序  

原创 Android Studio3安裝圖文教程

這篇文章主要爲大家詳細介紹了Android Studio3安裝圖文教程,具有一定的參考價值,感興趣的小夥伴們可以參考一下 本文爲大家分享了Android Studio3安裝圖文教程,供大家參考,具體內容如下 And

原创 安裝Tensorflow優化cpu:AVX AVX2

幾乎在所有情況下,當你使用通過 pip 安裝的軟件包時,會收到如下警告: Your CPU supports instructions that this TensorFlow binary was not compiled to use

原创 Windows安裝fastTest和skift 出現 ModuleNotFoundError: No module named 'fastText'

skift:scickit-learn Python fastText的包裝器。 安裝 skift 後,在訓練模型時出現:No module named 'fastText'   注意:安裝skift本身不會安裝fasttext,因爲P

原创 社交網絡分析工具NetworkX和Gephi

  Gephi中文教程 Networkx參考手冊

原创 機器學習中,有哪些特徵選擇的工程方法?

特徵選擇是特徵工程中的重要問題(另一個重要的問題是特徵提取),坊間常說:數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中佔有相當重要的地位。機器學習做得好不好,被數據和模型共同

原创 計算廣告CTR預估的特徵處理方法

  1.CTR預估,發現CTR預估一般都是用LR,而且特徵都是離散的。爲什麼一定要用離散特徵呢?這樣做的好處在哪裏? A:在工業界,很少直接將連續值作爲邏輯迴歸模型的特徵輸入,而是將連續特徵離散化爲一系列0、1特徵交給邏輯迴歸模型,這樣做

原创 Python按單詞或者字符翻轉字符串

python字符串處理學習中,有一道簡單但很經典的題目,按照單詞對字符串進行反轉,並對原始空格進行保留:  如:‘ I love python! ‘  轉化爲:‘ python! love I ‘  兩種解決方案:  方法1:從前往後對字

原创 Python如何進行內存管理的?

Python在進行內存管理從三個方面進行:   對象的引用計數機制 Python內部使用引用計數,來保持追蹤內存中的對象, 所有對象都有引用計數。 引用計數增加的情況: 一個對象分配一個新名稱 將其放入一個容器中(如列表List,元組tu

原创 Python的垃圾回收機制

  Python中的垃圾回收是以引用計數爲主,標記-清除和分代收集爲輔。 引用計數:python在內存中存儲每個對象的引用計數,如果計數變成0,該對象就會消失,分配給該對象的內存就會釋放出來。 標記-清除:一些容器對象,比如說list、d

原创 Summarization 文本摘要進展

文本摘要一直都是機器學習領域一個重要的熱點,但是卻有很大的難度。例如,給單篇文章起標題/摘要的時候,很難有詞頻作保證,而是需要模型可以理解內容,甚至做一些推理。在很多地方,摘要生成和機器翻譯有類似之處。然而,和機器翻譯不同的是,自動文本摘