原创 中文分詞工具—Jieba
中文分詞—Jieba 是一款Python 中文分詞組件 “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python C
原创 lightGBM使用教程
最近在參加騰訊2018 廣告大賽時,遇到到的知識點做一個分享! LightGBM(Light Gradient Boosting Machine)是一個基於梯度 boosting 框架, 使用決策樹爲其學習算法. 它是分佈式的, 高效的。
原创 紅黑樹和AVL樹(平衡二叉樹)區別
一,AVL樹(平衡二叉樹)(1)簡介AVL樹是帶有平衡條件的二叉查找樹,一般是用平衡因子差值判斷是否平衡並通過旋轉來實現平衡,左右子樹樹高不超過1,和紅黑樹相比,AVL樹是嚴格的平衡二叉樹,平衡條件必須滿足(所有節點的左右子樹高度差不超過
原创 【排序方法總結 】希爾排序 快速排序 歸併排序 堆排序等 Python實現
常見的七種排序算法: 外排序:需要在內外存之間多次交換數據才能進行 內排序: 插入類排序 直接插入排序 希爾排序
原创 Android Studio3安裝圖文教程
這篇文章主要爲大家詳細介紹了Android Studio3安裝圖文教程,具有一定的參考價值,感興趣的小夥伴們可以參考一下 本文爲大家分享了Android Studio3安裝圖文教程,供大家參考,具體內容如下 And
原创 安裝Tensorflow優化cpu:AVX AVX2
幾乎在所有情況下,當你使用通過 pip 安裝的軟件包時,會收到如下警告: Your CPU supports instructions that this TensorFlow binary was not compiled to use
原创 Windows安裝fastTest和skift 出現 ModuleNotFoundError: No module named 'fastText'
skift:scickit-learn Python fastText的包裝器。 安裝 skift 後,在訓練模型時出現:No module named 'fastText' 注意:安裝skift本身不會安裝fasttext,因爲P
原创 社交網絡分析工具NetworkX和Gephi
Gephi中文教程 Networkx參考手冊
原创 機器學習中,有哪些特徵選擇的工程方法?
特徵選擇是特徵工程中的重要問題(另一個重要的問題是特徵提取),坊間常說:數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中佔有相當重要的地位。機器學習做得好不好,被數據和模型共同
原创 計算廣告CTR預估的特徵處理方法
1.CTR預估,發現CTR預估一般都是用LR,而且特徵都是離散的。爲什麼一定要用離散特徵呢?這樣做的好處在哪裏? A:在工業界,很少直接將連續值作爲邏輯迴歸模型的特徵輸入,而是將連續特徵離散化爲一系列0、1特徵交給邏輯迴歸模型,這樣做
原创 Python按單詞或者字符翻轉字符串
python字符串處理學習中,有一道簡單但很經典的題目,按照單詞對字符串進行反轉,並對原始空格進行保留: 如:‘ I love python! ‘ 轉化爲:‘ python! love I ‘ 兩種解決方案: 方法1:從前往後對字
原创 Python如何進行內存管理的?
Python在進行內存管理從三個方面進行: 對象的引用計數機制 Python內部使用引用計數,來保持追蹤內存中的對象, 所有對象都有引用計數。 引用計數增加的情況: 一個對象分配一個新名稱 將其放入一個容器中(如列表List,元組tu
原创 Python的垃圾回收機制
Python中的垃圾回收是以引用計數爲主,標記-清除和分代收集爲輔。 引用計數:python在內存中存儲每個對象的引用計數,如果計數變成0,該對象就會消失,分配給該對象的內存就會釋放出來。 標記-清除:一些容器對象,比如說list、d
原创 Summarization 文本摘要進展
文本摘要一直都是機器學習領域一個重要的熱點,但是卻有很大的難度。例如,給單篇文章起標題/摘要的時候,很難有詞頻作保證,而是需要模型可以理解內容,甚至做一些推理。在很多地方,摘要生成和機器翻譯有類似之處。然而,和機器翻譯不同的是,自動文本摘