AI賦能下的聲紋識別技術在公共安全領域的深度應用

佳都新太科技股份有限公司徐建明

1、聲紋識別在公共安全領域的應用現狀

生物特徵是指每個個體所獨有的、可以通過技術有效測量、甄別、鑑定與驗證的某類生理上的特徵或行爲上的方式。從生物特徵的來源進行區分，可初步分爲兩大類，一是生理特徵，二是行爲特徵。生理特徵通常指的是人臉、掌靜脈、指紋、聲紋、虹膜等；行爲特徵通常指的是筆跡、步態等。

生物特徵識別技術就是利用各類傳感與採集技術、深度學習等人工智能技術，通過對個人生理特徵和行爲特徵進行計算，建立數學模型，並進行識別與區分的技術。

近年來，隨着智慧城市建設的不斷加速、以及人工智能技術的深度發展，越來越多的領域對生物特徵識別技術產生了應用需求。而在各類生物特徵識別技術中，智能語音類技術是應用得最廣泛的技術之一。

智能語音類技術從應用廣度來分，首屈一指的當屬語音識別與聲紋識別兩大類。其中，語音識別技術主要是以計算機來識別語音描述的內容，並自動將語音內容轉換爲文字；聲紋識別技術是通過對聲音頻譜等特徵的全面分析，建立計算機對聲音特徵的描述，並基於此分辨聲音的發出者的身份。兩者原理上類似，都是通過對採集到的語音信號進行分析和處理，提取相應的特徵或建立相應的模型，然後據此做出判斷。但二者的根本目的，提取的特徵、建立的模型是不一樣的。

語音識別技術當前已廣泛的運用在智慧城市的方方面面，例如地鐵站的智能語音售票、運營商或銀行的智能語音客服、智能手機上的語音輸入法、各類語音助理與智能音箱等等，都運用了語音識別技術。

而聲紋識別的應用領域則更加專業與細分，主要集中在公安、司法等需要利用聲紋鑑定人員身份的領域中。現代語音同一認定（聲紋鑑定）技術是隨着語圖儀（聲譜儀）的發明而發展起來的。20世紀40年代初期，美國貝爾實驗室發明了聲譜儀，這個儀器是一個動態聲波分析儀，通過對語音信號的時間、頻率和強度（t-f-a）三種參數的實時分析，產生一個連續可視的語音頻譜。當時在貝爾實驗室工作的物理學家波特（Potter）等人開始研究利用聲譜儀來分析語音。

最早進行語音同一認定（聲紋識別的主要分支）研究的是美國的克斯塔（L·G·Kersta）。他於1962年研究並發表了名爲《聲紋鑑定》（Voiceprint Identification）的研究報告。他對123名健康美國人的“I，You，It”等聲樣的25000個聲紋圖進行了50000多項分析，實驗準確率爲97％―99.65%。

而在我國，早在上世紀80年代末就已由上世紀八十年代末，中國刑警學院文檢系和公安部物證鑑定中心先後引進相關儀器設備並分別建立了聲紋鑑定實驗室，並進一步成立了聲紋鑑定研究課題組，開展了聲紋鑑定技術的研究工作。到現在，在全國各地公安機關的多年共同努力下，針對漢語這一世界最大語種獨有的特點與規律，已然總結出一套科學的鑑定與甄別方法，聲紋識別已成爲公共安全領域鑑定人員身份的主要手段之一。

2、聲紋識別在公共安全領域的應用特徵與變化

傳統的聲紋識別的主要應用一是在民事糾紛、刑事案件等訴訟環節，針對各類錄音文件鑑定其身份，是各類案件的偵辦、審理環節確認嫌疑人身份及證據真僞的主要手段之一；二是應用在智能手機助理、智能音箱、智能客服等生活服務場景，用於識別用戶身份，並提供針對性的服務。

在公共安全領域，隨着互聯網的高速發展，新型犯罪手段層出不窮，非接觸式、跨地域、大型組織、高度分工等特點，均是新型犯罪的主要特點，以最爲典型的電信詐騙爲例，犯罪團伙往往是多層級單線聯繫、跨省甚至跨國作案、與被害人0接觸。這類案件靠傳統的接觸式偵查手段往往難以爲繼，需要更高實時性的技術手段予以支持，是對案件偵破工作提出的新挑戰，也正是AI賦能下的聲紋識別技術所擅長的領域。

在這種背景下，聲紋識別在公共安全領域的應用特徵與變化主要有如下幾點：

由離線應用向在線實時應用轉變

近年來，隨着人工智能，深度學習，大數據分析等技術的發展，配合國家現有的指紋庫和人臉庫等成熟的生物特徵庫，業內已經逐步研發出不少切合實戰需求的聲紋應用系統。

其主要的應用場景是爲非接觸性犯罪案件偵破提供高效準確的偵查手段——在電信詐騙、恐嚇勒索等虛擬空間的犯罪案件裏，犯罪分子與被害人接觸會比較少，所以聲音成爲了最主要的破案線索，這類場景需要在線對特定場所採集的聲音，與涉詐騙人員庫等專題庫進行實時比對，以期及時發現身份可疑人員，提高偵查效能。

由1對1驗證向大規模數據比對轉變

傳統的聲紋識別應用場景多爲認定，即判斷指定的聲音是否由某個特定的人發出的，然而隨着大數據、深度學習技術的發展，技術上已能支撐大體量聲紋庫的建立，並實現聲紋數據的大規模檢索與比對，協助公安機關快速確認掌握的聲音線索的身份。

由單一聲紋應用向多維數據碰撞比對轉變

聲紋識別的應用已爲公安打擊虛擬空間犯罪提供了一種行之有效的技術手段，可進一步配合已有的人臉識別、指紋識別等生物特徵識別技術，現實空間和虛擬空間相結合，更全面的刻畫犯罪嫌疑人的全息畫像，對犯罪行爲進行多角度、多方位的監控和打擊，保衛國家和社會的安全。

3、聲紋識別在公共安全領域的應用瓶頸與問題

聲紋識別在公共安全領域的主要應用瓶頸與問題如下：

語音的時變性對聲紋識別的影響。

從根本上說，語音的個體穩定性主要是由語音的生理基礎決定的。當一個人的發音器官發育成熟以後，他的呼吸器官、喉系統和共鳴腔的生理結構及其機能就進入一個相對穩定的狀態，這就是聲紋識別的生理基礎。但是，聲音的穩定性較人臉、指紋等生物特徵相比，其穩定性相對較差，變聲期、病變、外傷、錄音條件不同、言語環境不同等因素都會使一個人的聲音產生變化，使其穩定性減弱，而一種生物特徵的廣泛應用卻要求在穩定性、差異性和反映性上均達到較高水平。因此，在公共安全這類嚴謹的應用領域，語音特徵通常是作爲認定嫌疑人（或當事人）的參考依據（特殊情況下可作爲傾向認定的依據），但通常不能輕易作爲否定依據。只有在特徵的特異性較強且穩定並確認無僞裝變化的情況下，纔可直接用來否定嫌疑人（或當事人）。

跨信道採集對聲紋識別的影響。

聲音的來源渠道多種多樣，例如錄音筆、電話、VOIP、拾音器等等，不同的採集渠道也會採用不同的音頻編解碼模式，模數轉換的過程或多或少會造成聲音的損傷。這就對聲紋識別時候的特徵建模提出了更高的要求，需要綜合考慮並屏蔽因採集設備、傳輸信道、環境噪音、錄音回放、聲音模仿、時間跨度、採樣時長等各種環境因素造成的影響，從當前業界實踐來看，聲紋識別也和其他識別一樣，也向着深度學習的方向發展。

錄音攻擊、TTS等技術對聲紋識別的影響

聲音是最容易被僞造的生物特徵之一，在當前技術水平下，錄音剪輯、TTS等技術手段形成的錄音片段，幾乎可達到以假亂真的程度，可見，在聲紋識別時候必須考慮到上述因素。

在應用時，業界通常會引入防錄音攻擊算法、活體檢測算法等技術，用以屏蔽技術手段對識別準確性的干擾。

3、構建聲紋識別大數據平臺，實現公共安全領域深度應用

1）應用需求

當前，公安機關針對各類虛擬空間犯罪（例如電信詐騙、恐嚇勒索等）的偵破，除了依靠追蹤銀行流水與電信話單外，有針對性的通過各種技術手段獲取的通話錄音、監聽錄音等音頻線索也是重要的破案途徑，但是單純通過人工監聽與甄別，既難以準確識別出犯罪嫌疑人，也難以將犯罪嫌疑人歷史積案進行串並，公安機關迫切需要新的技術手段，以在在海量音頻中挖掘線索、識別嫌疑人身份，甚至進一步建立事前主動出擊、主動預防的能力。

應用目標

聲紋識別大數據平臺的建設，爲上述問題的有效解決提供了一種新的技術手段。

聲紋識別大數據平臺是參照非接觸式犯罪打擊的業務需求與業務流程，專門針對多源異構的海量音頻數據開發的大數據實戰應用平臺，通過實現聲音數據的匯聚接入、優化治理、建庫比對、聲紋覈驗、聲紋聚類等一系列功能，可滿足聲紋實戰中線索排查、身份覈驗、類案串並等多方面應用需求，爲更快的破大案，更多的破小案服務。

總體架構

典型的聲紋識別大數據平臺架構如上圖所示，分爲數據源、數據處理層、支撐服務層與應用層四部分。

在數據源的接入上，平臺支持從網絡通信、電話信道、錄音設備和聲紋採集設備等多種類型的數據源接入實時音頻流或離線文件，最大限度擴展聲音的來源。

在數據處理層，平臺需對接入的各種類型音頻文件進行匯聚與處理，包括數據接入網關、數據轉儲網關、算法引擎、管理控制檯4部分。在此層次，需對接入的各類數據進行質量檢測，過濾不符合聲紋識別標準的低質量數據，對符合聲紋識別標準的數據進行聲紋特徵提取，將非結構化數據變爲計算機可識別的結構化數據。

在支撐服務層，主要是通過接入數據處理層的數據，爲上層應用提供可擴展的聲紋布控服務、聲紋靜態大庫檢索服務、聲紋動態庫檢索服務、消息服務、文件存儲、高速緩存服務、關係型數據庫、大數據分析、彈性搜索、地圖服務等一系列支撐服務與應用服務，支持各類聲紋業務應用及大數據計算需要。

聲紋識別大數據平臺的典型部署架構如下圖所示，包括數據接入網關服務器、特徵提取主機、聲紋動態布控服務器、聲紋靜態大庫檢索服務器、聲紋動態檢索服務、大數據服務器及應用支撐服務器。根據公安機關的實戰需求，平臺還需支持單網與雙網部署模式。

平臺功能與典型應用場景

聲紋識別大數據平臺具備聲音數據的匯聚接入、優化治理、建庫比對、聲紋覈驗、聲紋聚類等一系列功能，在公安機關的非接觸式案件的偵查與研判上，具有廣泛的應用場景，比較典型的應用模式如下：

線索排查場景

通過平臺的聲紋檢索功能，可在海量聲紋庫中檢索與輸入的聲音信息爲同一身份的記錄。該功能需要公安機關建立專題聲紋庫（如涉詐人員聲紋庫等），並根據業務需求進行標籤標註，當獲取到新的聲紋線索時，通過聲紋檢索功能可快速確認發出聲音的人員的身份。

身份覈驗場景

通過平臺的聲紋1：1覈驗功能，可實現基於聲音的身份驗證與鑑定，即通過對輸入的2個聲音來源進行特徵提取，並比對兩個特徵的相似度，當相似度大於一定的閾值時，可判定2段聲音爲同一人發出。爲進一步提高準確性，可引入多廠家、多版本的聲紋識別算法，當多個算法均認爲是同一人時，即可較爲準確的判定。

該場景可有效協助公安機關在審訊時候快速認定犯罪嫌疑人的聲音。

類案串並場景

平臺支持針對每個案件建立檔案，存儲涉案聲紋線索信息，並定期自動將涉案聲紋進行比對，若多個涉案聲紋記錄由算法判定爲同一人所發出，則可進行類案串並。該功能可協助公安機關擴大戰果，提升打擊效能。

聲紋布控告警場景

在能獲取實時聲音數據的應用場景中，可進一步實現基於聲音信息的布控告警功能，協助公安機關快速預警目標人員聲音出現，以及時做出響應。

人員聲紋畫像場景

利用平臺的聲紋聚類功能，可實現基於聲音信息的重點關注人員一人一檔。該檔案一方面可協助公安機關不斷積累重點關注人員的聲音信息，另一方面可利用大數據技術，結合聲音採集的時間、地點等信息，進一步分析挖掘該人員的行爲特徵與業務特徵，實現聲紋大數據畫像。

4、聲紋識別在公共安全領域的應用前景與趨勢

聲紋識別具有采集簡便、識別準確、難以僞造等衆多優勢，且對用戶干涉較少，更易嵌入各類應用場景中得到接受。在全球範圍內，聲紋識別技術正廣泛應用於身份驗證、記錄比對等場景。

隨着技術的發展與算力的提升，如今的安全主管部門也在更多地引入這一技術進行犯罪活動的打擊，例如，在高鐵站、火車站、長途汽車站、飛機場等一場三站場景，通過聲紋識別技術、結合人臉等生物特徵識別技術，對乘客身份進行精準識別，可以有效實現人員管控；通過聲紋布控告警等技術對非接觸式犯罪進行遠程網上偵查與打擊，也能更有效的提升安全主管部門的作戰能力。

5、結語

時至今日，聲紋識別技術已經從實驗室逐步走向各類實際應用場景中，處於大規模爆發性應用的前期，隨着聲紋識別的準確率繼續增高、使用限制的不斷減少，因其低侵入、無接觸等特點，在將來必定會在更多行業、更多場景中得到更爲廣泛的應用。

AI賦能下的聲紋識別技術在公共安全領域的深度應用

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

SAP SQLServer數據庫的日誌文件過大解決辦法

Visual Studio Enterprise 2015 安裝中的注意事項

大數據環境下的文件系統感想

AI賦能下的出入口控制技術在公共安全建設中的深度應用

AWSomeDay 中體會的微服務治理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結