從數據流中隨機選擇m個數的算法

原創

2020-06-22 12:13

百度筆試題目:爲分析用戶行爲，系統常需存儲用戶的一些query，但因query非常多，故系統不能全存，設系統每天只存m個query，現設計一個算法，對用戶請求的query進行隨機選擇m個，請給一個方案，使得每個query被抽中的概率相等，並分析之，注意：不到最後一刻，並不知用戶的總請求量。

方法一：

前m個直接存

對後面來的每個數據a[i](i > m),

隨機生成一個(1..i)之前的隨機數x,

若x<=m,確定a[i]被選中;再隨機生成(1..m)之間的隨機數y，用a[i]替換a[y].

證明思路:

1）對於處理前m個數，大家都被保存，概率都相等且爲1

2）對於第i(i>m)個數a[i],被選中的概率是m/i;

對於之前保存的m個數，它們每一個上一次存活下來的概率是m/(i - 1)[從i-1個數中選m個數],本次存活的概率是1-(m/i)*(1/m)=1-1/i,所以到當前爲止被選中概率是兩者相乘=m/i

得證。

下面兩個方法是從Hackbuteer1

http://blog.csdn.net/hackbuteer1/article/details/7971328

裏面看來的，僅僅簡化了一下證明流程。

方法二:

給每個元素隨機生成一個固定區間（如[0,1]）的權重。用一個大小爲m的堆來選取權重較大的m個元素。

方法三:

前m個直接存

對後面來的每個數據a[i](i > m),

隨機生成一個(1..i)之前的隨機數x,

若x<=m,確定a[i]被選中,用a[i]替換a[x];

證明思路:

1）對於處理前m個數，大家都被保存，概率都相等且爲1

2）對於第i(i>m)個數a[i],被選中的概率是m/i;

對於之前保存的m個數，它們每一個上一次存活下來的概率是m/(i - 1),本次存活的概率是1-1/i,所以到當前爲止被選中概率是兩者相乘=m/i

得證。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LeetCode-第70題

難度：簡單 1、動態規劃可以知道，如果要到達第n階臺階，有兩種方式：第一：從n-1階臺階跨1步第二：從n-2階臺階跨2步設到達第n階臺階的方法總數爲sum(n) 那麼由上面可以知道：sum(n)=sum(n-2)+su

不过是混吃等死

2020-06-29 16:10:45

LeetCode-第101題

難度–簡單題目分析：通過題目可以知道，這個樹鏡像對稱，那麼這棵樹關於根節點這條線對稱就是說，將它所有的左子樹變成右子樹，所有右子樹變成左子樹，它是不變的遞歸 //這裏直接傳遞tree根節點的左右子樹會比pre(Tree

不过是混吃等死

2020-06-29 16:10:45

單色三角形

空間裏有n個點，任意三點不共線。每兩個點之間都用紅色或者黑色線段鏈接。如果一個三角形的三條邊同色，責成這個三角形是單色三角形。對於給定的紅色線段列表，找出單色三角形的個數。分析：如果直接找需要枚舉所有的三個點的組合，有C(n,3)種

兔子大天使

2020-06-26 09:03:40

不斷減少時間複雜度的一個例子

問題：給出N張寫有數字(k1, k2, ..., kn)的牌和一個數字M, 從中抽4次(每抽完一次要放回)，判斷是否存在抽取4次牌上數字的和爲M的組合是否存在。 1 <= n <

2020-06-25 15:42:31

POJ1698 Alice's Chance（最大匹配）

題目大意： Alice要拍N部電影，一天只能拍一部每部電影規定在星期幾拍攝，要在W個星期內拍D次問Alice是否可以拍完所有電影這道題目關鍵是構圖，可以用最大流做由於我只會isap，寫起來太麻煩，所以選擇用好寫的最大匹配做當然

2020-06-24 17:36:57

HDU1079 Calendar Game（博弈）

題目大意：給定日期區間 1900-1-1 至 2001-11-4 隨機給出一個區間內初始日期每次操作可以將日或者月加一將日期移動到 2001-11-4 則勝利通過簡單分析，由於每次操作僅改變了日月之和的奇偶性容易得出日月之和爲

2020-06-24 17:36:57

HDU1532 Drainage Ditches（最大流）

學了一下午網絡流，AC了這道模板題勉強算是自己敲的，debug時參照了下模板，模板參照kuangbin大神鄰接表+isap算法 #include <stdio.h> #include <string.h> #define MAXN

2020-06-24 17:36:57

LeetCode題目——667. 優美的排列 II

題目如下：給定兩個整數 n 和 k，你需要實現一個數組，這個數組包含從 1 到 n 的 n 個不同整數，同時滿足以下條件： ① 如果這個數組是 [a1, a2, a3, ... , an] ，那麼數組 [|a1 - a2|, |a2

2020-06-21 21:15:00

uva 10905

很水的貪心，重點在於如何排序字符串。開始我用的排序方法是按字典序比，不過不一樣的是，如果前面的字母都一樣，單詞短的排前面，開始覺得沒什麼問題，後來遇見這個數據就跪了。。 2 9909 990 最後使用了c++ 的string比較，思路

2020-06-21 12:15:23

統計不同字符個數

輸入一行字符，分別統計出其中英文字母、數字、空格和其他字符的個數。 #include<stdio.h> #include<string.h> int main() { char ch; int a=0,b=0,c=0,d=

2020-06-21 11:54:41

圖的深度優先遍歷(DFS)和廣度優先遍歷(BFS)算法分析

1. 深度優先遍歷深度優先遍歷(Depth First Search)的主要思想是： 1、首先以一個未被訪問過的頂點作爲起始頂點，沿當前頂點的邊走到未訪問過的頂點； 2、當沒有未訪問過的頂點時，則回到上一個頂點，繼續試探別的頂點

2020-06-21 11:47:40

LeetCode Top Interview Questions（0 - 50）

前言每天刷一刷，5050發。 LeetCode Top Interview Questions（0 - 50） 1 Tow Sum 找出數組中和爲target的兩個數的下標。你可以確保有且僅有一個解。 Example: Gi

2020-06-20 19:53:48

劍指67題解

劍指offer 需要md私信 1 二維數組中的查找二維數組中的查找在一個二維數組中（每個一維數組的長度相同），每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函數，輸入這樣的一個二維數組和

2020-06-20 19:53:48

LeetCode Top Interview Questions（101 - 145）

前言每天刷一刷，5050發。 LeetCode Top Interview Questions（101 - 145） 101 Basic Calculator II 實現 + - * /計算 Example 1: Input

2020-06-20 18:53:44

LeetCode Top Interview Questions（50 - 100）

前言每天刷一刷，5050發。 LeetCode Top Interview Questions（50 - 100） 51 Binary Tree Level Order Traversal 二叉樹的層序遍歷 For exam

2020-06-20 18:53:44

24小時熱門文章

最新文章

最新評論文章