原创 Langchain試用百度千帆

之前聊了向量數據庫,大模型也火了一段時間了,今天特地嘗試一下基於Langchain進行百度千帆大模型的使用。Langchain相當於一個LLM編程框架,開發中無需過多關心各個大模型的接入,只需安裝相關模型,統一通過Langchain去調用相

原创 向量數據庫HNSW算法

向量數據庫構建好embedding後,需要通過相關算法進行檢索,它常用到的相似性搜索算法有HNSW,HNSW算法是NSW算法改進而來,它是屬於ANN算法中不同類別的圖類別中的一種。     節點與節點之間的連接方式可以形成3類圖:正則圖,隨

原创 向量數據庫

  隨着LLM的起飛,向量數據庫也跟着火爆,好多做向量數據庫的初創企業ppt剛寫好,就拿到幾千萬美元的風投。     向量數據庫是一種特殊的數據庫,它是存儲了一堆浮點數,這些浮點數排列到一起就像一個數組,這些浮點數在向量數據庫裏面被稱爲維度

原创 Flink雙流Join

   Flink雙流Join分爲window join、internal join、connect、維表廣播等方法,其中window join又分爲Tumbling Window Join、Sliding Window Join、Sessi

原创 Flink內存模型

  之前聊Flink的slot時簡單提到過內存,Flink計算框架的內存大致分爲Flink使用的內存、Jvm使用的內存。Flink爲什麼不全使用JVM內存的原因是顯而易見的,作爲實時計算框架,JVM內存依賴GC自動回收一旦稍微慢一點,就會對

原创 Flink富函數

   富函數是DataStream API提供的函數接口,Flink的函數都有它的Rich版本,它與其他函數不同的是,富函數可以獲取到運行環境上下文,初始化參數,擁有生命週期方法等,可通過它進行自定義複雜功能。我們常見的如RichMapFu

原创 Flink精確消費一次

 在大數據計算裏面,計算引擎是處於承上啓下的作用,對上承接數據源,對下承接各種各種數據庫,比如mysql、oracle。對於任何數據計算來說要想精確消費一次,就需要支持事務或者冪等,我們最常見的支持事務的就是單點的oracle、mysql數

原创 Flink的State

    有狀態的計算是流式計算框架的一個重要功能,很多複雜的計算場景都需要記錄一下相關的狀態。Flink State一種爲了滿足算子計算時需要歷史數據需求的,使用 checkpoint 機制進行容錯,存儲在 state backend 的數

原创 Flink執行圖

Flink的代碼編寫流程爲env->source->transform->sink,基本所有的代碼都是大致按照圖1的流程進行代碼編寫,當然中間也會有一些封裝之類的。   Flink代碼寫好後,它的任務調度執行圖按照生成順序分爲:邏輯流圖(

原创 kafka數據一致性

kafka作爲商業級中間件,它在設計時優先考慮的可靠性、可用性,同時兼顧一致性,這是所有分佈式都會遇到的cap理論,kafka也不例外;可靠性通過副本機制解決,可用性通過leader和follower機制來解決。     kafka的可靠性

原创 Kafka存儲機制

Kafka之所以有那麼高的吞吐量,很大程度取決於它的存儲機制,一個主題可以有多個partition,每個partition有一個leader和多個副本,讀寫主要通過leader,副本的主要功能還是爲了保證數據的安全性和保證可靠性,當某個pa

原创 Hive數據線下導入Mysql

1.背景      最近在處理一個數據量級在1億左右的數據,沒辦法mysql不好處理,只能把數據放到大數據集羣進行處理,處理好後再把這億級數據導入本地Mysql。 2.實踐 (1)把需要處理的數據手動傳到集羣,上傳的數據只有一萬條左右,經過

原创 Mysql分區表踩坑

1.背景         最近公司看板要搞月切看板,沒法只有把每個月的最後一份數據存儲下來,由於看板使用的是存儲引擎是mysql,所以並不想每次都推送所有月份數據到mysql,尤其是每個月數據量較大的時候,只好使用增量的方式進行數據推送。採

原创 HiveSQL腳本耗時長問題排查

1.背景     底層引擎採用的是Tez,爲了快速定位自己的腳本是哪一段性能較差,首先需要在腳本里面設置腳本名稱,命令如下: set tez.job.name=dws_contract_detail_info_s_d;     這是我的一個

原创 單機區塊鏈理解

  區塊鏈是一種分佈式的、不可篡改的記錄數據的技術。它是由一系列數據塊(Blocks)組成的鏈式結構,每個數據塊包含了一定數量的交易信息和與之相關的元數據。每個數據塊都通過密碼學哈希函數與前一個數據塊連接起來,形成了一個不斷增長的鏈式結構。