故事:坐在我隔壁的小王問我什麼是HyperLogLog

1

最近坐我隔壁的小王同志,心情真是糟透了。不但工作不順心,被老闆狠狠的批了一頓,連女朋友也跟別人跑了(Y 的讓你天天在我面前秀)。

真是不可謂不慘,我都快要同情他了。

看着他萎靡又迷離的眼神,我實在不忍心,就勸他請假幾天出去散散心。

臨走前,我交代他,有什麼緊急的事,就聯繫哥。

還有,不要忘了我們之間的暗號哦 ~

2

於是,小王就拖着疲憊的身軀,揹着雙肩揹包和最新款mac,穿着他最心愛的格子衫出發了。

去哪呢,這是一個問題。平時宅在家裏習慣了,想來一場說走就走的旅行還是真不容易呀。

就在小王犯難的時候。

耳機裏應時地傳來一句歌聲:”坐上了火車去拉薩,去看那神奇的布達拉。“

額,那就去布達拉宮吧。參觀一下號稱世界上海拔最高的建築,同時感受一下西藏妹子人民的熱情。

3

帶着對未來的憧憬,踏上旅途的小王,坐在高鐵上,聽着音樂,很快就進入了夢鄉。

夢中他做了一個奇怪的夢,夢到自己不知怎地來到了陌生的世界。

而自己卻不知身在何處,身邊只有陣陣的風沙跟隨。

心道,我這是到哪了,不是應該到布達拉宮了嗎。

努力的向遠處張望,卻怎麼也看不真切。

終於睜大眼睛看清了。

卻發現,迎面走過來一位乘務員小姐姐,輕啓紅脣,對小王說,先生到站了,還請趕快準備行李下車了。

4

哦,原來是個夢啊。

心道,這該死的福報,給我搞的都快分不清自己是莊周還是蝴蝶了。

趕緊下了車,跟着大部隊,走向布達拉宮的方向。

還沒進到布達拉宮裏邊,小王就感受到了這偉大建築的雄偉壯觀。真是不虛此行啊。

不自覺的就加快了腳步,想一探究竟。

走着走着,小王卻發現周圍的人一個一個都不見了蹤影,只留下自己形單影隻。

忽然,眼前一白,再睜開眼,發現自己置身於一片山林之中。

就在小王心覺奇怪時,隱約聽到遠處傳來一陣陣的嬉笑聲和水流聲。

好奇心驅使下,小王循着聲音走去。隔着一片草叢,發現了讓他血脈噴張的畫面。

一羣 x 身 x x 的仙女正在水中戲耍,一個個毫無顧忌的互相嬉鬧。姣好的身材一覽無餘。

就在小王看的入神之際,突然聽到一聲大喊:誰?!

下一刻就發現他面前站着一個身穿廣袖流仙裙的仙女。還未來得及反應,就感覺腦袋一沉,昏睡過去了。。。

5

也不知道過了多長時間,小王感覺好像一個世紀都過去了。睜開眼發現自己正躺在一個類似古代閨房的牀上。卻發現身體無論如何也是動不了一分。

透過屏風,像是聽到有幾個女孩子在談話。

“怎麼從來沒有見過這樣的人,他爲什麼和我們長的不太一樣。“

“他到底是幹什麼的,爲什麼可以穿越結界,來到我們女兒國。一般人是做不到的。”

正在討論間,卻發現聲音截然而止。然後聽到整齊劃一的聲音,“恭迎女王陛下”。

然後,發現進來了一個仙女,擁有着絕世容顏,毫無瑕疵的臉蛋,美的不可方物。

原來這就是女兒國的國王。

女王畢竟是見過世面的人,知道小王就是傳說中的男人。

然後把小王的禁錮給解除了。小王瞬間感覺身上沉重的力量消失了,渾身輕鬆。

6

(場景切換)

本來小王只請假了一週,但是眼看第二週就要過完了,也沒再收到過小王的消息。

我也納悶,這傢伙怎麼回事,旅遊放鬆一下就好了,竟然把時間都忘了。

這還有一大堆工作,我幫他兜着呢,再不回來我就報警了啊(無奈)。

。。。

某天深夜,當我正在發奮寫文章時,手機突然收到一條消息。

天王蓋地虎

臥槽,這是小王給我發暗號了?

當時,我們約定只有緊急情況下才發暗號,莫非是小王遇到了什麼麻煩?

於是,我趕緊對暗號,希望他不要出什麼事纔好。

小雞燉蘑菇

隨後,小王給我簡單敘述了他這一週多的經歷。如果不是星哥我經歷豐富,差點都被他搞懵逼了。

下面是小王的自述:《《《

那天,我決定去布達拉宮看宮殿,不料,卻走到了女兒國的宮殿。

這不要緊,關鍵是女兒國現在遭遇了一些事情,環境惡化,已經影響到她們的正常生活了。

爲了她們的子孫後代,急需一位心地善良,心靈純潔之人幫助她們化解危機。

其實要做的事情也很簡單,就是讓我和女兒國的仙女們一起雙修就好了。

在女王陛下的一再懇求下,本着助人爲樂的精神,我只能留下來幫她們了。

爲了更快更效率的完成任務,我記錄了這段時間和哪些仙女進行過雙修,並把她們進行了編號。

這個好說,因爲數據量目前也不大,我決定用 Redis 的 Set 集合來裝填數據就可以。

set = {id1,id2,id3}

隨着需要我幫助的人越來越多,我發現仙女們各自的體質也稍有不同。因此,每個人和我雙修的次數也不固定。

於是,我只能修改記錄方式。

用 zset 來分別記錄每個人和我雙修的次數,

zset = {id1: count1, id2: count2, id3: count3}

後來,仙女數量實在是太多了,以上記錄方式已經行不通了,內存會爆掉的。索性我就不算了,何必給自己添麻煩呢。

但是,突然,有天我正在和一個仙女雙修呢。女王陛下來到我旁邊,看着我辛苦的樣子(也或許是我帥氣的側顏)。發現我滿臉汗水,於是用那還殘留着女王香氣的手帕溫柔地幫我擦汗。

我能清晰的感覺到女王在我耳邊吐氣如蘭,一雙美眸撲閃撲閃地看着我。那細膩光滑、吹彈可破的臉蛋兒,就像剛剝殼的雞蛋一樣。

就在我內心波瀾起伏時,女王問我,哥哥,你能估算一下現在大概有多少個仙女雙修過了嗎。

這下我慌了,這可怎麼辦呢,我可沒有計算這個東東啊。

星哥,江湖救急啊。

》》》

看到這裏,我真是氣不打一處來,這特麼合着我給你頂包,你在外邊逍遙快活呢。這真不是人乾的事兒啊。

我:你 Y 的,瘦弱的小身板,能經得起折騰嗎?

小王: 哎呀,星哥你就不用擔心我這個了。我在這天天喫好喝好的,女王還每天給我喝大補湯,我很 OK 的。你趕緊給我解決方案吧。

聽到這,我氣的打字的雙手都在顫抖。單身狗沒有人權啊,真是人比人氣死人,和小王比,生活真是一個天上一個地下。

生氣歸生氣,但誰讓我是好人呢(滴,好人卡),就好事做到底吧。

7

:那個,你可以用 HyperLogLog 啊,它的鍵只需要花費 12K 的內存,就可以計算 2^64 個不同元素的基數。這樣就大大節省你的內存了。

小王:HyperLogLog 是什麼鬼,沒聽說過啊?還有,你說的基數是什麼意思呢?

: HyperLogLog 是用來做基數統計的一種算法。當輸入元素的數量越來越大時,它所佔用的空間卻是固定的。這是和集合的不同點,集合是元素越多,佔用空間越大。

基數很好理解,就比如說有一個數據集存儲了每個仙女每次雙修的編號 {1, 3, 5, 8, 3, 5, 9},那麼去除重複元素後的基數集就是 {1, 3, 5, 8, 9},基數就是它的個數,這裏就是 5 ,代表有 5 個仙女和你一起雙修過了。

因爲你關心的是有多少個仙女和你雙修過,不關心具體都是誰。

小王:這個聽起來好像很牛批的樣子,那我怎麼使用呢?

:你可以使用 pfadd 命令添加元素,命令格式:pfadd key element [element ...],例如,我添加三個仙女,pfadd fairy_practice id1 id2 id3

當計算基數時,就可以用 pfcount 命令,格式:pfcount key [key ...]。如果 key 爲一個,計算的是這個 HyperLogLog 的近似基數。如果 key 爲多個,就可以計算它們的近似基數和。

注意,這裏的基數計算是一個估算值,並不是一個準確的值。

HyperLogLog 只會根據輸入的元素計算基數,而不會存儲元素本身。這是和集合的另外一個不同點,集合會存儲每個輸入的元素。

所以,你用 pfcount fairy_practice 就滿足要求了。因爲女王不就讓你計算一個大概值嗎,而且也沒有讓你說出仙女的具體名字啊。

小王:臥槽,這個真是太神奇了。星哥你可是幫了我大忙了。等我忙完這陣子,回去就給你帶女兒國的特產哈。

:我去你大 x 的。女兒國能有什麼特產,不都是仙女麼,你能給我帶來幾個仙女嗎?

小王:。。。(好像不能)

聽到這,我真是要被氣死了,真是豈有此理,太敷衍我了。

氣的我一下子就把電腦給合上了。

天馬行空無厘頭,vx搜「星哥聊編程」

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章