圖像分類是人工智能領域的一個熱門話題,通俗來講,就是根據各自在圖像信息中反映的不同特徵,把不同類別的目標區分開。圖像分類利用計算機對圖像進行定量分析,把圖像或圖像中的每個像元或區域劃歸爲若干個類別中的某一種,代替人的視覺判讀。
在實際生活中,我們也會遇到圖像分類的應用場景,例如我們常用的通過拍照花朵來識別花朵信息,通過人臉匹對人物信息等。通常,圖像識別或分類工具都是在客戶端進行數據採集,在服務端進行運算獲得結果。因此,一般都會有專門的API來實現圖像識別,雲廠商也會有償提供類似的能力:
- 華爲雲圖像標籤
- 騰訊雲圖像分析
本文將嘗試通過一個有趣的Python庫,快速將圖像分類的功能搭建在雲函數上,並且和API網關結合,對外提供API功能,實現一個Serverless架構的"圖像分類API"。
入門ImageAI
首先,我們需要一個依賴庫:ImageAI
。
什麼是ImageAI呢?其官方文檔是這樣描述的:
ImageAI是一個python庫,旨在使開發人員能夠使用簡單的幾行代碼構建具有包含深度學習和計算機視覺功能的應用程序和系統。
ImageAI本着簡潔的原則,支持最先進的機器學習算法,用於圖像預測、自定義圖像預測、物體檢測、視頻檢測、視頻對象跟蹤和圖像預測訓練。ImageAI目前支持使用在ImageNet-1000數據集上訓練的4種不同機器學習算法進行圖像預測和訓練。ImageAI還支持使用在COCO數據集上訓練的RetinaNet進行對象檢測、視頻檢測和對象跟蹤。 最終,ImageAI將爲計算機視覺提供更廣泛和更專業化的支持,包括但不限於特殊環境和特殊領域的圖像識別。
簡單理解,就是ImageAI依賴庫可以幫助用戶完成基本的圖像識別和視頻的目標提取。不過,ImageAI雖然提供一些數據集和模型,但我們也可以根據自身需要對其進行額外的訓練,進行定製化拓展。
其官方代碼給出了這樣一個簡單的Demo:
from imageai.Prediction import ImagePrediction
import os
execution_path = os.getcwd()
prediction = ImagePrediction()
prediction.setModelTypeAsResNet()
prediction.setModelPath(os.path.join(execution_path, "resnet50_weights_tf_dim_ordering_tf_kernels.h5"))
prediction.loadModel()
predictions, probabilities = prediction.predictImage(os.path.join(execution_path, "1.jpg"), result_count=5 )
for eachPrediction, eachProbability in zip(predictions, probabilities):
print(eachPrediction + " : " + eachProbability)
我們可以在本地進行初步運行,指定圖片1.jpg
爲下圖時:
可以得到結果:
convertible : 52.459537982940674
sports_car : 37.61286735534668
pickup : 3.175118938088417
car_wheel : 1.8175017088651657
minivan : 1.7487028613686562
讓ImageAI上雲(部署到Serverless架構上)
通過上面的Demo,我們可以考慮將這個模塊部署到雲函數:
- 首先,在本地創建一個Python的項目:
mkdir imageDemo
- 新建文件:
vim index.py
- 根據雲函數的一些特殊形式,我們對Demo進行部分改造
- 將初始化的代碼放在外層;
- 將預測部分當做觸發所需要執行的部分,放在入口方法中(此處是main_handler);
- 雲函數與API網關結合對二進制文件支持並不是十分的友善,所以此處通過base64進行圖片傳輸;
- 入參定爲
{"picture": 圖片的base64}
,出參定爲:{"prediction": 圖片分類的結果}
實現的代碼如下:
from imageai.Prediction import ImagePrediction
import os, base64, random
execution_path = os.getcwd()
prediction = ImagePrediction()
prediction.setModelTypeAsSqueezeNet()
prediction.setModelPath(os.path.join(execution_path, "squeezenet_weights_tf_dim_ordering_tf_kernels.h5"))
prediction.loadModel()
def main_handler(event, context):
imgData = base64.b64decode(event["body"])
fileName = '/tmp/' + "".join(random.sample('zyxwvutsrqponmlkjihgfedcba', 5))
with open(fileName, 'wb') as f:
f.write(imgData)
resultData = {}
predictions, probabilities = prediction.predictImage(fileName, result_count=5)
for eachPrediction, eachProbability in zip(predictions, probabilities):
resultData[eachPrediction] = eachProbability
return resultData
創建完成之後,下載所依賴的模型:
-
SqueezeNet(文件大小:4.82 MB,預測時間最短,精準度適中)
-
ResNet50 by Microsoft Research (文件大小:98 MB,預測時間較快,精準度高)
-
InceptionV3 by Google Brain team (文件大小:91.6 MB,預測時間慢,精度更高)
-
DenseNet121 by Facebook AI Research (文件大小:31.6 MB,預測時間較慢,精度最高)
因爲我們僅用於測試,所以選擇一個比較小的模型就可以:SqueezeNet
:
在官方文檔複製模型文件地址:
使用wget
直接安裝:
wget https://github.com/OlafenwaMoses/ImageAI/releases/download/1.0/squeezenet_weights_tf_dim_ordering_tf_kernels.h5
接下來,進行依賴安裝:
由於騰訊雲Serveless產品,在Python Runtime中還不支持在線安裝依賴,所以需要手動打包依賴,並且上傳。在Python的各種依賴庫中,有很多依賴可能有編譯生成二進制文件的過程,這就會導致不同環境下打包的依賴無法通用。
所以,最好的方法就是通過對應的操作系統+語言版本進行打包。我們就是在CentOS+Python3.6的環境下進行依賴打包。
對於很多MacOS用戶和Windows用戶來說,這確實不是一個很友好的過程,所以爲了方便大家使用,我在Serverless架構上做了一個在線打包依賴的工具,所以可以直接用該工具進行打包:
生成壓縮包之後,直接下載解壓,並且放到自己的項目中即可:
最後一步,創建serverless.yaml
imageDemo:
component: "@serverless/tencent-scf"
inputs:
name: imageDemo
codeUri: ./
handler: index.main_handler
runtime: Python3.6
region: ap-guangzhou
description: 圖像識別/分類Demo
memorySize: 256
timeout: 10
events:
- apigw:
name: imageDemo_apigw_service
parameters:
protocols:
- http
serviceName: serverless
description: 圖像識別/分類DemoAPI
environment: release
endpoints:
- path: /image
method: ANY
完成之後,執行sls --debug
部署,部署過程中會有掃碼登陸,登陸之後等待即可,完成之後,就可以看到部署地址。
基本測試
通過Python語言進行測試,接口地址就是剛纔複製的+/image
,例如:
import json
import urllib.request
import base64
with open("1.jpg", 'rb') as f:
base64_data = base64.b64encode(f.read())
s = base64_data.decode()
url = 'http://service-9p7hbgvg-1256773370.gz.apigw.tencentcs.com/release/image'
print(urllib.request.urlopen(urllib.request.Request(
url = url,
data= json.dumps({'picture': s}).encode("utf-8")
)).read().decode("utf-8"))
通過網絡搜索一張圖片:
得到運行結果:
{
"prediction": {
"cheetah": 83.12643766403198,
"Irish_terrier": 2.315458096563816,
"lion": 1.8476998433470726,
"teddy": 1.6655176877975464,
"baboon": 1.5562783926725388
}
}
通過這個結果,我們可以看到圖片的基礎分類/預測已經成功了,爲了證明這個接口的時延情況,可以對程序進行基本改造:
import urllib.request
import base64, time
for i in range(0,10):
start_time = time.time()
with open("1.jpg", 'rb') as f:
base64_data = base64.b64encode(f.read())
s = base64_data.decode()
url = 'http://service-9p7hbgvg-1256773370.gz.apigw.tencentcs.com/release/image'
print(urllib.request.urlopen(urllib.request.Request(
url = url,
data= json.dumps({'picture': s}).encode("utf-8")
)).read().decode("utf-8"))
print("cost: ", time.time() - start_time)
輸出結果:
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 2.1161561012268066
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.1259253025054932
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.3322770595550537
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.3562259674072266
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.0180821418762207
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.4290671348571777
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.5917718410491943
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.1727900505065918
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 2.962592840194702
{"prediction":{"cheetah":83.12643766403198,"Irish_terrier":2.315458096563816,"lion":1.8476998433470726,"teddy":1.6655176877975464,"baboon":1.5562783926725388}}
cost: 1.2248001098632812
通過上面一組數據,我們可以看到整體的耗時基本控制在1-1.5秒之間。
當然,如果想要對接口性能進行更多的測試,例如通過併發測試來看併發情況下接口性能表現等。
至此,我們通過Serveerless架構搭建的Python版本的圖像識別/分類小工具做好了。
總結
Serverless架構下進行人工智能相關的應用可以是說是非常多的,本文是通過一個已有的依賴庫,實現一個圖像分類/預測的接口。imageAI
這個依賴庫相對來說自由度比較高,可以根據自身需要用來定製化自己的模型。本文算是拋磚引玉,期待更多人通過Serverless架構部署自己的"人工智能"API。