原创 Taxonomy部分方法

基於分佈式表示 關鍵概念獲取 生成候選上位詞(hypernyms)或下位詞(hyponyms),這兩類詞通常是key terms,我們可以通過詞性標註(POS tagging)或者命名實體識別(named entity reco

原创 安裝gensim的過程中遇到的坑

興高采烈地前往https://radimrehurek.com/gensim/install.html,準備安裝gensim 根據提示敲下命令pip install –upgrade gensim 過了一段時間之後,控制檯顯示n

原创 使用nltk + Stanford parser生成句法樹

在自然語言處理中,句法樹是比較有用的特徵,特別是生成最短依賴路徑SDP。 首先我們要去官網下載jar包。有多種語言可選,也可以下載完整版。 我們下好了之後,解壓stanford-parser-full-2018-02-27.zi

原创 Sping Boot+Maven實現多環境切換

在實際開發中,由於dev、test以及prob三個版本的運行環境是不同的(比如數據庫、redis、域名的配置等等),但是它們之間環境的切換又相對頻繁。爲了防止每次版本切換都手工去修改環境、測試環境,Spring Boot 和 Ma

原创 判斷一個屬性的修飾詞

在閱讀Spring源碼時發現裏面有一個很有意思的方法——ReflectionUtils.isPublicStaticFinal(Field field),這個方法能夠判斷一個屬性是否是public static final修飾的,

原创 實戰Java高併發程序設計(一)走進併發世界

基本概念 併發(concurrency)和並行(parallelism) 併發偏重多個任務交替執行,而多個任務之間可能還是串行的。 並行是真正意義上的“同時執行”。 臨界區 臨界區用來表示一種公共資源,或者說是共享數據,可

原创 使用gensim+jieba生成Word Embeddings

在自然語言處理中,使用Word2Vec來生成Word Embeddings是非常常用的一種做法,而gensim這個庫提供了生成W2V的接口。 import os import jieba from gensim.models im

原创 實戰Java高併發程序設計——單例模式

   單例模式是設計模式中使用最爲普遍的模式之一。它是一種對象創建模式,用於產生一個對象的具體實例,它可以確保系統中一個類只有一個實例。這種模式有一下兩個好處: 1.對於使用頻繁地對象,可以省略new操作花費的時間。特別是對於那

原创 Shutdown Hooks

Shutdown Hooks可以在JVM shutting down的時候,運行一段代碼,如果一些場景需要我們在JVM掛了的時候,執行一些特殊的清理工作,那我們就可以使用它了。 但是如果VM是因爲外部(例如linux下面的kill

原创 Reinforcement Learning for Relation Classification from Noisy Data

主要貢獻 提出一個新的關係分類模型,它有實體選擇器與關係分類器構成。它能夠在句子級別提取關係。 將實體選擇問題轉換成強化學習問題,這使得不需要實體選擇的標籤,而只需要關係分類器的弱監督的回饋就能進行實體選擇。 摘要 現在

原创 實戰Java高併發程序設計(三)JDK併發包

實戰Java高併發程序設計(三)JDK併發包 同步控制——重入鎖    重入鎖可以完全替代synchronized關鍵字。其使用方法如下: public ReentrantLock lock = new Reentrant

原创 Spring Boot多數據源配置

動機 在最近的項目中,由於新項目要和老項目整合(新舊業務過渡),因此需要將的數據庫表與老數據庫表做數據庫同步。 方案 利用Spring Boot支持多數據源的特性,配置兩個數據源來實現該需求。(這篇博客不討論業務層面的實現方式,

原创 配置Spring Boot通過@ConditionalOnProperty來控制Configuration是否生效

問題 在最近的項目中遇到一個實際問題,該項目要與老項目整合,但是該項目與老項目用的數據庫不是同一個,因此要做數據庫同步。由於數據庫同步與正常業務解耦,僅僅依賴該項目處理後的數據,再加上數據庫同步用的Oracle,因此打算在dev

原创 實戰Java高併發程序設計(二)Java並行程序基礎

進程與線程 進程(Process)是計算機中的程序關於某數據集合上的一次運行活動,是系統進行資源分配和調度的基本單位,是操作系統結構的基礎。進程是程序的容器。 線程(Thread)是CPU調度的最下單位,它是建立在進程的基礎上

原创 Distant Supervision——遠程監督

定義:只要包含兩個Entity的句子,都在描述同一種關係。 用途:主要用來爲關係分類任務擴充數據集。 優點:能夠很快速地爲數據集打上標籤 缺點:它假設只要包含兩個Entity的句子,都在描述同一種關係,這個假設會產生很多地錯