原创 NLP(十四)自制序列標註平臺

背景介紹   在平時的NLP任務中,我們經常用到命名實體識別(NER),常用的識別實體類型爲人名、地名、組織機構名,但是我們往往也會有識別其它實體的需求,比如時間、品牌名等。在利用算法做實體識別的時候,我們一般採用序列標註算法,這就對標註的

原创 NLP(十三)中文分詞工具的使用嘗試

  本文將對三種中文分詞工具進行使用嘗試,這三種工具分別爲哈工大的LTP,結巴分詞以及北大的pkuseg。   首先我們先準備好環境,即需要安裝三個模塊:pyltp, jieba, pkuseg以及LTP的分詞模型文件cws.model。在

原创 NLP(十二)依存句法分析的可視化及圖分析

  依存句法分析的效果雖然沒有像分詞、NER的效果來的好,但也有其使用價值,在日常的工作中,我們免不了要和其打交道。筆者這幾天一直在想如何分析依存句法分析的結果,一個重要的方面便是其可視化和它的圖分析。   我們使用的NLP工具爲jieba

原创 NLP入門(十一)從文本中提取時間

  在我們的日常生活和工作中,從文本中提取時間是一項非常基礎卻重要的工作,因此,本文將介紹如何從文本中有效地提取時間。   舉個簡單的例子,我們需要從下面的文本中提取時間: 6月28日,杭州市統計局權威公佈《2019年5月月報》,杭州市醫

原创 Docker入門(四)——MySQL鏡像中的數據庫可視化

  在詳細介紹這篇文章的內容前,需要說明下筆者寫這篇文章的意圖:筆者在現有的開發中,前後端聯調的方式爲Docker鏡像對接,數據庫使用MySQL鏡像,開發環境爲遠程服務器,因此,筆者迫切需要一種能將遠程服務器端的MySQL鏡像中的數據庫進行

原创 利用關係抽取構建知識圖譜的一次嘗試

關係抽取   信息抽取(Information Extraction, IE)旨在從大規模非結構或半結構的自然語言文本中抽取結構化信息。關係抽取(Relation Extraction, RE)是其中的重要子任務之一,主要目的是從文本中識別

原创 Python中的測試工具

  當我們在寫程序的時候,我們需要通過測試來驗證程序是否出錯或者存在問題,但是,編寫大量的測試來確保程序的每個細節都沒問題會顯得很繁瑣。在Python中,我們可以藉助一些標準模塊來幫助我們自動完成測試過程,比如: unittest: 一個

原创 BERT的幾個可能的應用

  BERT是谷歌公司於2018年11月發佈的一款新模型,它一種預訓練語言表示的方法,在大量文本語料(維基百科)上訓練了一個通用的“語言理解”模型,然後用這個模型去執行想做的NLP任務。一經公佈,它便引爆了整個NLP界,其在11個主流NLP

原创 NLP入門(十)使用LSTM進行文本情感分析

情感分析簡介   文本情感分析(Sentiment Analysis)是自然語言處理(NLP)方法中常見的應用,也是一個有趣的基本任務,尤其是以提煉文本情緒內容爲目的的分類。它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。

原创 將Python字符串生成PDF的實例代碼詳解

這篇文章主要介紹了將Python字符串生成PDF的實例代碼,本文通過代碼給大家介紹的非常詳細,具有一定的參考借鑑價值 ,需要的朋友可以參考下 筆者在今天的工作中,遇到了一個需求,那就是如何將Python字符串生成P

原创 Python之將Python字符串生成PDF

  筆者在今天的工作中,遇到了一個需求,那就是如何將Python字符串生成PDF。比如,需要把Python字符串‘這是測試文件’生成爲PDF, 該PDF中含有文字‘這是測試文件’。  經過一番檢索,筆者決定採用wkhtmltopdf這個軟件

原创 SPARQL入門(一)SPARQL簡介與簡單使用

  知識圖譜(Knowledge Graph)是當前互聯網最炙手可熱的技術之一,它的典型應用場景就是搜索引擎,比如Google搜索,百度搜索。我們在百度搜索中輸入問題“中國銀行的總部在哪”,搜索的結果如下: 這便是知識圖譜的典型應用,能夠

原创 SPARQL入門(二)使用Java操作ARQ

  在文章SPARQL入門(一)SPARQL簡介與簡單使用中,我們瞭解了RDF、SPARQL以及基於Java編寫的SPARQL處理器ARQ。在本文中,筆者將會如何使用Java來操作ARQ。   注意到在Jena的官網http://jena.

原创 SPARQL入門(一)SPARQL簡介與簡單使用

  知識圖譜(Knowledge Graph)是當前互聯網最炙手可熱的技術之一,它的典型應用場景就是搜索引擎,比如Google搜索,百度搜索。我們在百度搜索中輸入問題“中國銀行的總部在哪”,搜索的結果如下: 這便是知識圖譜的典型應用,能夠

原创 利用百度文字識別API識別圖像中的文字

  本文將會介紹如何使用百度AI開放平臺中的文字識別服務來識別圖片中的文字。百度AI開放平臺的訪問網址爲:http://ai.baidu.com/ ,爲了能夠使用該平臺提供的AI服務,你需要事先註冊一個百度賬號。 創建百度AI文字識別應用