原创 Python:調用百度地圖和高德地圖API獲得信息檢索結果

前言 不管是百度地圖還是高德地圖api,在個人開發者認證完成之前的每日調用配額低得可憐,認證通過後每日可以在信息檢索上,每日上限是30萬,併發量可以達到50,所以必須認證! 代碼 import requests import js

原创 Python:好租網商務樓數據爬取

前言: 爬的方法和以前房天下類似,只是在使用next_sibling的時候一直不成功,所以先找了parent然後再找兒子的方式曲線救國解決了。 因爲我的需求只是名字、區域、地址和樓層四個,所以參數不多,需要的可以自己在我的代碼基礎

原创 Pandas:把一份清單數據按時間序列轉爲dict、list的混合樣式

前言: 標題很難懂,直接上個例子吧。 上圖爲原始數據,想要轉爲下面的格式: {‘用戶1’: [{第1天的發帖量,第2天的發帖量…第31天的發帖量}, {第1天的投票數合計,第2天的投票數合計…第31天的投票數合計}, {第1天的

原创 Python:通過百度地圖API快速獲取路對應的行政區域

前言: 最近在做地址標準化的工作,其中一項子任務就是要做地址庫,根據內部數據結合前期從網上獲取的地址庫,計算獲得一堆新的路名(未納入地址庫),接下來的工作就是要判斷這個新的路名是否跨區域,如果不跨的話屬於哪個區? 一開始是通過百度

原创 Python:自動檢測是否雙跨並斷開wifi

前言 雙跨,也就是連接有線網的時候還連接着wifi。在雙跨的情況下,如果黑客通過wifi進(外網)攻的話,有線網(內網)就有可能被侵入,存在安全問題。 所以使用Python開發了一個小工具,其中部分代碼由公司一位大師提供,我在其基

原创 如何在雲上進行網站部署

前言: 所有云的使用大同小異,本文主要是幫助大家瞭解如何在雲上進行網站部署。 因爲涉嫌廣告,所以雲賬號的開通和資源的申請沒法發出來,大家自己摸索吧~~ 資源申請中,我選擇的系統是centos 7,這個系統自帶anaconda 2.

原创 Pandas:將釘釘的日報清單進行提取和整理

前言: 雖然大家一直詬病釘釘,但不可否認釘釘這個軟件本身還是很強大的,日報也是與微信相比比較突出的一個功能。通過PC端釘釘,可以把一段時間內的日報批量導出,但是因爲是清單格式,所以看起來並不是特別方便,所以我就想把它改成類似於下面

原创 Python:把多張圖片放在同一個word中

前言:在原部門的最後一天,有個需求,需要分兩步完成。 第一步: 有一堆照片在同一個文件夾下,根據excel讀取規則,如下圖 因爲比較亂,所以需要把圖片放在一個個按“門店名稱”創建的文件夾下,以供部門同事後續覈對 from PIL

原创 CDA Level2 模擬題1 Python代碼實現

前言: 由於是模擬題,且除了數據清洗外沒有答案,所以建模部分沒有做特徵工程,用了最簡單的隨機森林的分類樹且沒有做交叉驗證甚至沒有調參,也就是說用這個代碼的話頂多弄個及格分。 一、數據下載: http://exam.cda.cn/s

原创 CDA Level2 模擬題2 Python代碼實現

前言: 模擬題2是一道2分類預測類建模,需要預測利潤而不是傳統的準確率或召回率等,這就代表用一個模型是沒有辦法獲得最高分的,必須根據不同的情況進行調參。 雖然沒有答案,但是好在有一個類似的練習賽 地址是: http://jings

原创 CDA LEVEL2 大綱解析案例題Python實現代碼

數據下載: http://exam.cda.cn/static/exam_attachment/L2jmjxshiti.zip 導入庫 import pandas as pd import numpy as np import m

原创 Ai研發相關知識1

正式開始Ai研發這個崗位了,雖然之前已經做好了被虐的準備,但還是沒有想到會有這麼大的差距,領導和同事講的內容我只能聽懂50%,完全無法插上嘴。從今天開始做好筆記,把上班聽到的一些名詞和技術記錄下來,每天做好複習。 1、雲計算(Ia

原创 Linux:虛擬機安裝Linux、Hadoop的相關操作

一、前言 最近在學習Linux,初步完成了基礎命令的學習,開始自己嘗試安裝Hadoop。大部分都是參考別人的文章,我這邊主要是總結碰到的一些坑或者需要注意的命令,供自己後續學習。 需要包括以下步驟: 安裝VMware——>安裝Li

原创 Python:爬取疫情每日數據

前言 有部分同學留言說爲什麼412,這是因爲我代碼裏全國的cookies需要你自己打開瀏覽器更新好後替換,而且這個cookies大概只能持續20秒左右! 另外全國衛健委的數據格式一直在變,也有可能會導致爬取失敗! 我現在已根據2月