2025-06-12 15:16:04 +00:00
- 52=4*13 张牌两个人无放回的各抽一张,求 A 比 B 大的概率。
解答:一共三种情况 A>B; A=B; A< B.
对称性,所以只要求 A=B 的概率然后除以 2:
$ (1 – 3/51)/2 = 8/17 $
- 100 个乘客对应 100 个座位编号,如果第 1 个醉汉乘客随机选了一个,后面的乘客如果自己的位置被占了也会随机选。求第 100 号乘客坐对的概率。
解答:“醉汉”选 1, 后面的乘客都有自己座位, 我一定能选到 100 号;选 100, 则我一定坐不到; 选其他座位 i, i 就成了新 drunk. 所以答案是 0.5
- 一共 2^N 选手,水平没有相同。使用两两分组淘汰制,求最后第 1 强和第 2 强遇到的概率。
解答:只要一开始 1 和 2 别被分到一个 A, B 同一个大组里,他们一定能在最后遇上。所以概率是: $ 2^{N-1}/(2^N - 1) $
- 一个不均匀硬币怎么构造一个等概率事件。
解答:抛两次直到抛出 HT A 赢; TH B 赢。
更高效的 sampling: 当前 m 个 H, 找一个最近的总次数 n 使得 $ C_m^n $ 是偶数, m 个 H 一半的排列和剩下的一半等概率 http://yilinmo.github.io/fair-results-from-a-biased-coin
如果 C(k, m(k)) 是偶数,那么如果最后一次抛硬币的结果是反面,则赋值 X=0; 如果最后一次抛硬币的结果是正面,则赋值 X=1; 如果 C(k, m(k)) 是奇数,那么再抛一次硬币。这里 m(k) = 第 k 次抛硬币后出现的正面的数量。
- 要成为队伍中第一个生日与排在前面的人重复的人,应该选哪个位置使概率最大。
解答:对于第 n 个位置,发生的概率 p(n) = (前 n-1 个人生日不同) * (你生日和这 n-1 个人中某一个相同) = $ \frac{365 \times 364 \times \ldots \times 365-(n-2)}{365^{n-1}} * \frac{n-1}{365} $ 利用 p(n) > p(n - 1) && p(n) > p(n + 1) 解得 n = 20
- 每个莲花等概率的四种情况死掉、保持不变、分裂成两个、分裂成三个。求死光的概率。
解答: p = 1/4*1(死掉)+ 1/4*p(保持不变)+ 1/4*p^2(分列成两个)+ 1/4*p^3(分列成三个)
- 二叉树每个 node 是否产生左右子叶独立都为 1/2. 求最后是对称树的概率。
解答: $ p = \frac{1}{2} \times \frac{1}{2} (\text{没有 node}) + \frac{1}{2} \times \frac{1}{2} \times p^2 (L \text{的 L=R 的 R} \&\& L \text{的 R=R 的 L}) $
- (H) A、B 交替抛硬币, A 先抛。出现 HT 抛到 T 的那个获胜。求 A 获胜的概率。
解答: 先计算 A 抛到 H 获胜的概率:
$ P(A|H) = (B \text{抛到 T 则输掉}) \times 0.5 + (B \text{抛到 H, A 要赢等价于先抛输}) \times 0.5 \times (1 - P(A|H)) $ 推出 $ P(A|H) = \frac{1}{3} $
A 如果抛到 T, A 要赢等价于先抛输, 所以最后 $ P(A) = 0.5 \times P(A|H) + 0.5 \times (1 - P(A)) \Rightarrow P(A) = \frac{4}{9} $
- 6 孔左轮手枪塞一颗子弹, 两个轮流各自开一枪, 不 spin。求先开枪打死的概率。
解答: 先来被打死当且仅当子弹在 1, 3, 5。所以被打死的概率是 0.5。
- 如果第一个打完 spin 一下。
解答: $ P = \left( \frac{1}{6} \text{被打死了} \right) \times \frac{1}{6} + \left( \text{第一枪没被打死, 要被打死等价于后开枪被打死} \right) \times \frac{5}{6} \times (1 - P) \Rightarrow P = \frac{6}{11} $
- 两颗子弹随机放入, 对手先开枪以后没死, 你是选择 spin 还是不 spin, 这里只开一枪。
解答: Spin: $ \frac{2}{6} $ , 不 spin: $ \frac{2}{5} $ , 所以要选择 spin
- 如果连续放两颗。
解答: spin: $ \frac{2}{6} $ , 不 spin: 假设子弹在 5, 6, 对手没死说明打的 1, 2, 3, 4, 下一枪你会死只有在对手打的是 4 时, 所以死掉的概率是 $ \frac{1}{4} $
- 52=4*13 发给 4 个选手每个人 13 张。求每个人都有一个 A 的概率。
解答: 52 个位置让 4 个 A 去放。第 1 个放完, 为了不在同一个人手里, 剩下 51 个位置中有 12 个位置不能放了; 第二个放完有 24 个位置不能放了
$ \frac{51-12}{51} \times \frac{50-24}{50} \times \frac{49-36}{49} $
- n 条面 2n 个端点, 每次随机取两个直到没有端点为止, 求最后圈的个数。
解答: $ E[f(n)] = (\text{第二个端点选在同一根面上, 即少了 1 根面多了 1 个圈}) \times \frac{1}{2n-1} \times (1 + f(n-1)) + (\text{选在其他面上即少 1 根面}) \times \frac{2n-2}{2n-1} \times E[f(n-1)] = E[f(n-1)] + \frac{1}{2n-1} $
- 52 张牌翻出第一张 A 需要翻牌数的期望。
解答: 固定四张 A 剩下 48 张牌独立地有 5 个位置可以放 1 A 2 A 3 A 4 A 5, 这里面只有放在 1 位置上才会使翻牌数增加 1, 所以 $ E[A] = 1 + 48 \times (1 \times \frac{1}{5}). $ 这里 1 是因为打开 A 本身需要 1 次。
- n 个蚂蚁随机落在 1 米长的木棍上 (U(0,1)-分布), 起始时候等概率向左或者向右以 1 米/min 速度爬行。当两只蚂蚁碰面的时候各自调转方向继续爬行。求所有蚂蚁爬到端点的时间期望。
解答:两只蚂蚁碰面各自掉转方向等价于两只蚂蚁角色互换按原方向继续爬行。则题目变为 n 个 iid 的 U(0,1) 分布的最大值( 最后到达那只蚂蚁) 的期望。n/(n+1)
- Let’ s make a deal: 3 个 door 后面 1 个 car, 2 个 sheep。你选中一个后打开剩下是 sheep 的门,问你换不换。
解答:换,因为 1) 不换则和开不开门没关系,就是选中 car 的概率 1/3; 2) 换的话选中 car 当且仅当之前选中 sheep 即 2/3。
任意 n, 换赢的概率 (n-1)/n (一开始没选中 car)*1/(n-2) (剩下的选中 car)>1/n
- 2n 个人去买 5 块钱票, n 个有 5 块钱, n 个有 10 块钱。则每个人都有钱找的概率。
解答:即 n 个-1, n 个 1 排序,当前和碰到-1 则没钱找。即从 2n 步 (0,0) 到 (2n,0), n 次上 n 次下的路径,碰到 y=-1 的概率。用反射定理,等价于 2n 步 (0,0) 到 (2n,-2) 的所有路径。一共路径可能 (0,0)->(2n,0):n 步下, n 步上,一共 $ \binom{2n}{n} $ ; (0,0)->(2n,-2):n+1 步下, n-1 步上,一共 $ \binom{2n}{n-1} $ ,概率为 $ \frac{\binom{2n}{n}}{\binom{2n}{n-1}} = \frac{n}{n+1} $ 。
- 找到最大最小值 3n/2 复杂度。
解答:每次选两个大的放一堆,小的放一堆,再对大堆找最大值,小堆找最小值
- 用均匀硬币(等概率抽取 0,1) 构造任意概率 p
解答:把 p 表示成二进制(对任意进制都成立) $ p = p_1 2^{-1} + p_2 2^{-2} + \cdots $ ,第 i 抽取 (0,1),如果小于 $ p_i $ 则赢,大于则输,一样继续。我们来看第 i 次赢的概率:首先我们要到达第 i 次,每次继续即一样的概率为 0.5,所以到达第 i 次的概率 $ 2^{-i} $ ; $ p_i = 0 $ ,小于它的概率为 0; $ p_i = 1 $ ,小于它的概率为 0.5。综合起来小于 $ p_i $ 的概率为 $ p_i 2^{-i} $ ,所以在第 i 次赢的概率为 $ p_i 2^{-i} $ 。则总体赢的概率就是把它们累加起来。
- 用 10 只老鼠测试 1000 瓶酒中哪一瓶有毒,每只老鼠只能死一次。
解答:把酒编号写成二进制,让第 i 只老鼠喝一口第 i 位是 1 的酒。这样死掉的老鼠就代表第 i 是 1 其他位都是 0, 则唯一确定下毒酒的二进制编号。所以 n 个老鼠最多可以测试 $ 2^n $ 瓶酒
- n, n+1, n+2, 三张卡片不知道 n 的值,每翻一张就可以决定留或者翻下一张,直到最后一张,求最优策略。
解答:只选一次的期望是 n+1; 我们使用翻第二次, 如果大于第一张就选第二张; 如果小于第一张就选第三张。我们可以枚举 6 种情况,得到期望 n+4/3 > n+1
- n 分成若干份乘积最大:都是 3, 直到最后一段是 2 或 3 或 4
- $ x \sim \text{binom}(10,0.5), y \sim \text{binom}(9,0.5) $ , $ P(x>y) $ ?
解答:把 x 看成一个和 y 独立同分布的变量 y’ 加上一个 Bernoulli b: $ x = y' + b $ 。全概率公式 P(y’ 大于等于小于 y) 三个条件下,可得 $ P(x>y) = P(y'>y) + P(y' = y)P(b=1) = 0.5(1-P(y' = y)) + 0.5* P(y' = y) = 0.5 $
- 判断 n 是不是 Fibonacci 当且仅当 $ 5 \times n^2 \pm 4 $ 至少有一个是平方数
a) Fibonacci 从0 开始, 前n个的和为S(n) = F(n+2)-1
b) n很大时, 可以用 $ \frac{1}{\sqrt{5}} \times 1.618^n $ 近似( 后半部分幂为0)
- 系数都是positive的多项式, 只知道输入x和输出y。最少次数就能知道所有系数:
解: 2次。1. x=1 得到p. 所有系数小于p; 2. x=p, 输出分解成p进制就知道所有系数了
- X和Y是1和-1的概率都是0.5, 它们是同一个sign的概率是75%, 求x和y的correlation
解: Var[X] = Var[Y] =1, Cov[X,Y] = E[XY] - E[X]E[Y] = 1*0.75 - 1*0.25 = 0.5 => rho = 0.5
- (H) A B biased coins 抛100次, optimal strategy determines the larger probability of head (Multi-armed bandit)
Thompson sampling 中可以引入 epsilon-greedy 探索
https://www.staticor.io/blog/algo
https://stats.stackexchange.com/questions/490363/interview-question-of-biased-coin/490364?noredirect=1#comment905546_490364
( 1) 每个硬币, 设定初始的分布: Beta(1,1) ( 2) 从后验中采样 ( 3) 选择大的采样对应的硬币抛。这可以做到既 Exploration 又 Exploitation
- 1-10, 抽两个数乘积期望, 有放回: $ \frac{(1+\cdots+10)^2}{100} $ ;无放回: $ \frac{(1+\cdots+10)^2-(1^2+\cdots+10^2)}{90} $ ;有放回会大,几何平均数大于算数平均数。
- 任意P(X1=X2)=0的分布产生1/2分布, 用P(X1>X2)=1/2
- 10次硬币正反数字积的期望: E[X(10-X)]
### 其他
- 囚犯帽子: 100个囚犯黑白帽子随机分配, 每个人只能看到所有前面人的帽子, 猜自己帽子, 猜对放掉。最优策略: 0.5概率牺牲最后1个, 活99个。最后1个说白色代表前面有偶数个白帽子, 黑色代表有奇数个白帽子。接下来大家就可以根据自己看到的奇偶判断自己帽子颜色
- 过桥最少时间甲:1, 乙:2, 丙:5, 丁:10。一个手电筒一次过两个要把手电筒送回来。
解: 1) 甲和乙先过桥, 花费2分钟; 2) 甲返回, 花费1分钟; 3) 丙和丁过桥, 花费10分钟; 4) 乙返回, 花费2分钟; 5) 甲和乙一起过桥, 花费2分钟。一共17分钟。
- 我在圆心, 鲨鱼在圆周上。鲨鱼速度是我4倍。求怎么逃生( 不在圆周上和鲨鱼相遇)
解: 1/4半径上的圆周上我的角速度和鲨鱼一样, 所以稍微小一点点的半径上我的角速度大于鲨鱼, 因此就可以相对于鲨鱼出现在这个小半径圆周的任何地方。当我、圆心、鲨鱼成一条直线时, 我剩下3/4半径的路程, 鲨鱼剩下pi*半径的路程, 所以4倍速度我先到
- 99只狮子1块肉, 吃了肉的狮子就会被吃掉。最后回剩下什么?
解: 1只会吃->3只会吃->所以4只就不能吃, 吃了就会变成3只1情况被吃掉->以此类推, 奇数只会吃, 剩98只
- 1到100中即是4k+1又是5k-1的质数。
解: 5k-1的质数只能个位是9, 第一个是29, 后面都是+20, 所以另外一个是89
- 一序列硬币中n个朝上, 问你如何在蒙住眼睛的情况下把硬币分成两堆, 每一堆朝上的硬币一样多。
解: 随机拿出n个作为第二堆, 然后翻转一下。
- 10堆各有10个硬币, 有一堆全是假的。假的11g, 真的10g。有一个能读数的称, 怎么1次称出假的在哪一堆?
解: 第一堆取1个, 第二堆取2个... 一共55个, 实际重量减去550就是堆数。
- 魔方要把27块都切下来不可能小于6刀。
解: 考虑中间的那块每个面要分离。
- 25匹马一次赛5匹, 至少7次才能知道前三。
解: 5次: 5*5; 1次: 每组第一赛一次决出前三; 1次: 第一的二三,第二的一二,连同第三的一再赛一次
- N个小球找出比较重的次品, 需要 $ \lceil \log_3 N \rceil $ 向上取整。
解: 每次均匀分3堆, 不失一般性, 可以假设次品一定在三堆中。更复杂的不分轻重的情况见: https://zhuanlan.zhihu.com/p/368050985
### 抛筛子
- 抛3次筛子, 每次你可以决定的得面值停止或者继续进行。求期望得分。
解: 次数 n 从低向上递推。n=1, 得分期望 3.5; n=2, 第 1 次抛到小于 3.5 即 1、2、3 继续抛, 4、5、6 停止,期望是: (停止) $ 3/6 \times (4+5+6)/3 + (继续抛,期望即为第 3 次期望) $
$ 3/6 \times 3.5 = 4.25 $ ; n=3, 第 2 次抛到小于 4.25 即 1、2、3、4 继续,抛到 5、6 停止:
$ 2/6 \times (5+6)/2 + 4/6 \times 4.25 = 4.67 $ . 当 n 无限大的时候,期望为 6 即一直抛直到抛到 6 为止。
- 如果题目变为 pay 1 继续
解: $ v_k $ 代表抛到小于 k 继续抛,其他停止。比如 k=3, 则 1, 2 继续抛, 3, 4, 5 停止,我们有:
- 抛筛子每次给你面值,如果抛到 4、5、6 继续再抛; 1、2、3 则停止。求最后得分期望
解答 1: $ E[A] = (\text{抛到 1、2、3, 给 1、2、3 的期望停止}) \times 0.5 \times (1+2+3)/3 + (\text{抛到 4、5、6, 给 4、5、6 的期望,且继续抛即又是 } E[A]) \times 0.5 \times ((4+5+6)/3 + E[A]) $
解答 2: stopping process $ N $ 为几何分布 $ G(0.5) $ ,每次 $ X $ 的期望为 3.5 所以 $ E[S_N] = E[X] \times E[N] = 3.5 \times 2 = 7 $
- (R) 更一般的可以将 stopping 过程剥离:
(1) 1, 2, 3 得 1 分并继续; 4, 5 停止得 0 分; 6 停止得当前分数
解答: 一般状态 123, $ E=1 $ 。从 1 开始 $ E = 2/3(4,5) \times 0 + 1/3(6) \times 1 = 1/3 $
(2) 1, 2, 3 得 1 分并继续; 4, 5 归零并继续; 6 停止。
解答: 一般状态 123, $ E=1;4,5 $ 归零继续即最终是到 6 为止,所以就是 1
- (R) 抛筛子,随时可以停止,得分为当前抛到的总和。但是总和超过 6 就为 0 停止。求最优策略?
解: 设 $ E[X] $ 为当前得分 $ X $ 下的最后的期望得分。 $ X=6: \ E[6] = 6 $ 即总和到 6 就停止; $ X=5: $ 有 $ 1/6 $ 抛到 1 = $ E[6] $ ,其他都是 0, 所以 $ E[5] = \max(5, 1/6E[6]) = 5 $ ,所以总和为 5 也停止;我们有
2025-06-13 01:36:00 +00:00
$ E[X] = \max \left( X, \frac{1}{6}(E[X + 1] + \cdots + E[6]) \right) $
2025-06-12 15:16:04 +00:00
$ E[6] = 6, E[5] = 5, E[4]=4, E[3] = 3, E[2] = 3, E[1] = 3.5 $ 即除了和是 1, 2 继续抛,其他都停止。
- 如果是抛到平方数就为 0, 则对于较大的 $ n $ ,我们在平方数附近: $ [n^2 - 6, n^2 - 1] $ 就应该停止,因为每经过一个平方数不为 0 的存活概率为 $ 5/6 = \frac{5}{6} $ $ n^2 $ 会趋于 0。具体的上界可以用:
$
n^2 - 6 > \frac{5}{6}(n^2 - 1) \Rightarrow n \geq 13
$
以后进入平方数附近就停止。
- 抛n次骰子, sum被6整除的概率是1/6: 只看最后一次
- 筛子抛到和是3的倍数的期望是3。
解: 考虑余数, n次停止的概率是1/3。所以是一个几何分布。注意这里前提是每次余数0,1,2出现概率一
- 抛n次fair硬币, 偶数次H的概率是1/2。其实这里也可以包含unfair硬币, 只要有一个fair的, 我们把它当做最后一个, H偶数的概率永远是1/2。这里等价于所有XOR
- (R) 抛若干次筛子, 到达任何一个数n的概率都近似是2/7。
$ P(n) = (P(n-1)+\ldots+P(n-6))/6 \Rightarrow $ 随着次数增加趋于相同。严格数学证明需要用到起始条件: $ P(1) = 1/6, P(0)=\ldots=P(-5) = 0. $
若干次后超过n的概率是1, 倒数第i次是n-i, 则超过概率是1-i/6。所以
$ 1 = (6/6*P(n) +5/6*P(n-1) + 4/6*P(n-2) + \ldots + 1/6*P(n-5)) \Rightarrow P = 6/21 $
不同的是,如果 $ \geq N $ 就停止, 则最大概率的必然是N
- 抛4次筛子, 求 $ E[X_{(1)} + X_{(4)} - X_{(2)} - X_{(3)}] $
解: E=0。这里要用到x和7-x有一样的分布( 一般的对称分布即2*mean) 。所以 $ X_{(1)} $ 和 $ 7 - X_{(4)} $ 有一样的分布 $ E[X_{(1)} + X_{(4)}] = E[X_{(2)} + X_{(3)}] = 7 $ 。这里利用对称性,对任意排序 $ X_{(k)} $ 和 $ 7 - X_{(n+1-k)} $ 的分布都是一样的
- (H) 对于对称分布,(样本)中位数和样本 mean 相比,方差要小。
解:利用上面的结论,均值一样,所以实际比 $ E[M^2] $ 。对于 mean 来讲每个取值成为 mean 的概率一样;而对于中位数,因为远离 mean 的两端数变成 median 的可能性会变小,即 $ M^2*p $ 较大的那些 M 值权重较小。
- (H) positive x a strictly decreasing pdf mean>median.
要用到 $ E[X] = \int_{0}^{\infty} P(X > x)dx $ 和 $ P(X > x) $ 是凸函数。对截距h+1/2和中位数m计算三角形面积, 对h单调求最大值推出 $ E[X] > m $
https://math.stackexchange.com/questions/4553703/assuming-a-random-variable-x-has-a-strictly-decreasing-pdf-prove-that-its-mean
- 均值一样的对称分布 $ P(Y>X) = P(X>Y) $ 。比如, 3个六面dice (X)的和和1个20面dice (Y)。
具体计算:
$ P(Y > X) = \sum P(Y > x|X = x)P(X = x) = \sum_{20-x}^{20} P(X = x) = E_X \left[ \frac{20-x}{20} \right] = \frac{19}{40} $
$ P(Y = X) = \sum P(Y = x)P(X = x) = \frac{1}{20} $
相等的概率与上面 unfair硬币一样, 只要有一个fair, 奇偶就是一样
筛子和越靠近中间概率越大, 但有可能和相邻的相等需要验证。比如6面和10面的和, 7到11都是等概率
- 30面筛子谁猜的数字接近谁就赢。
解: 越靠近中间赢的概率越大。如果是要付抛到的钱, 则是选a保证对手选a-1和a+1( 与前面不同, 这里两边都有可能最大) 都比他多(22): 1/30((30+…+22)-(21+…+1))=0.1
- A/B抛30/20面筛子, 如果a > b, 赢a; 如果a< =b, 输b。求期望。
解: 1/3 概率 a>20, 全赢; 2/3 概率 a< =20, 赔钱等价于相等时( 对称性输赢抵消, 这里ab是1~20完全) 。所以 E = 1/3*(21+30)/2 – 2/3*1/20*(1+20)/2=8.15
这里1/20是a与b一样的概率
### 抛硬币
- 求抛100次硬币H的个数和前10次H的个数的correlation?
这里用到Xi iid:
$
\frac{\text{Cov}(10X_1, 100X_1)}{\sqrt{\text{Var}(10X_1)}\sqrt{\text{Var}(100X_1)}} = \frac{10\text{Var}(X)}{\sqrt{10}\sqrt{100}\text{Var}(X)} = \frac{1}{\sqrt{10}}
$
https://math.stackexchange.com/questions/3960623/how-to-calculate-the-correlation-between-the-number-of-heads-of-100-toss-of-coin
- n flip 没有连续 H的个数是斐波那契数列 f(1)=2, f(2)=3, 看成 HTXXX 和 TXXXX
- 100块钱开始, 抛硬币。H就x+1, T就1/x。求抛10次的期望。
解: 可以近似的看成连续成双出现的T接近100, 而一旦有连续奇数个T出现结果就接近1。n次成双T的排列对应Fibonacci: F(n+1) 即往 n-2最后加TT; 往n-1最后加H。所以期望可以近似的看成 100*F(n+1)/2^n + 1*(1- F(n+1)/2^n). 当n很大时, F(n) 近似 $ \frac{1}{\sqrt{5}} \times 1.618^n $ ,所以 E 接近 1
- (H) 抛到 H/T 得分1/-1, 从0开始, 到2/-2就A/B赢, 起始押注1块即A赢了+1输了-1, 抛前A可以选择是否翻倍, 求策略和期望。题目意思是否赢了( 2分或-2分) 才得到钱?
解: 如果选择在1翻倍, 考虑前两步的4种情况(1,2: 2), (1,0: 2x, 回到原点但翻了一倍), (-1,-2: -1), (-1,0: x 回到原点但没有翻倍): x = 1/4*(2+2x+x-1), x= 1. 如果选择在0,1都翻倍, 则结果为无穷大
- (H) H/T A/B 加1, 谁先到2谁就赢, 输的付给赢的1元。A有一个option随时可以把赌注变到2元, 这个option价值?
解: A肯定只会在净值(1,0)时候变成2即除了TT其他都会变成2。枚举所有情况( 与上面不同, 这里分数不会减少即总共就6种情况结束) => 1/4*(2-1)=1/4
- 彭尼游戏(Penney’ s game): 任给一个H/T的triple序列 ABC 总存在一个对应的triple序列( 反B) AB 先到概率较大。
马尔科夫链解方程,定义 $ P(S_i) $ 为从状态 $ S_i $ 出发,玩家 $ A $ 的序列先出现的概率
### 期望和
- n个人先后先后取n顶帽子, $ X $ 代表取到自己帽子的人数,求 $ E[X] $ , $ Var[X] $ ?
解: 可以看做1到n随机排列, 位置正确的个数。 $ X_i=1 $ 代表 $ i $ 位正确, 0代表错误。注意 $ X_i $ 和 $ X_j $ 不独立。则
$$
X = \sum X_i, P(X_i = 1) = \frac{1}{n}, P(X_i = 1, X_j = 1) = \frac{1}{n} \times \frac{1}{n-1}, i \neq j
$$
$$
E[X] = 1, Var[X] = E[X^2] - (E[X])^2 = \sum_{i \neq j} E[X_i X_j] + \sum_i
$$
这里是Exchangeable random variables, 本质只是抽样后随机排序, 所以每个位置取到的可能性等价。因此所有位置都同分布但不独立
- 错排问题( Derangement) : n个人全部拿错。
解:容斥原理,至少一个人拿对, $ S_i $ : $ i $ 拿对的排列个数
$$ |S_1 \cup \ldots \cup S_n| = \sum |S_i| - \sum |S_i \cap S_j| + \ldots + (-1)^{n+1} |S_1 \cap \ldots \cap S_n| $$
$$ = C_n^1 (n-1)! - C_n^2 (n-2)! + \ldots + (-1)^{n+1} C_n^0 0! $$
$$ = n! \left(1 - \sum \frac{(-1)^i}{i!}\right) \rightarrow n! (1 - e^{-1}) $$
- n次dice, $ X $ : 1次数; $ Y $ : 2次数。求 $ Cov(X, Y) = -\frac{n}{36} $
解: $ X = \sum X_i, Y = \sum Y_i $ $ Cov(X_i, Y_j) = E[X_i Y_j] - E[X_i]E[Y_j] = E[X_i Y_j] - \frac{1}{6} \times \frac{1}{6}, i \neq j, E[X_i Y_j] = -\frac{1}{36} $ else 0. 所以 $ -\frac{n}{36} $
- 超几何分布: N个球中有n个红球, 取K个球。
解: $ X_i=1 $ 是第 $ i $ 次取到红球,同上利用对称性。 $ P(X_i=1) = P(X_1=1) = n/N $ ; $ P(X_i=X_j=1) = P(X_1=X_2=1) = n/N \times (n-1)/(N-1) $
- 9只猫, 8只狗排成一排, 求( 狗, 猫) 这样pair的期望个数?
解: 选定狗和猫, 它们能成pair的概率为 $ 16/P_{17}^{16} $ , 一共能取9*8组, 所以 $ E = 9 \times 8 \times 16/P_{17}^{16} $ 。也可以用以下方法计算(查看每个猫: $ 16/17 \times 8/16 \times 9 $ )。如果是求左边动物不一样的个数期望就把狗的也算一遍加起来
- 如果是9个A, 9个B坐成一圈只和自己人握手。
解:我们考虑和左边的人握手的概率是 $ 8/17 $ ,所以一共期望是 $ 8/17 \times 18 $ 。改成直线也是一样,除了坐在最左边,和左边人握手的概率为 $ 17/18 \times 8/17 = 8/18 $ 。 $ E = 8/18 \times 18 = 8 $ 。
- 26红26黑排列, 一样的记为一个block, 比如RBBR = 3。问最后block个数的期望
解:每一个只要左手边把不一样就可以+1。每一个左手边和它不一样的概率: 1/52( 在最左边) + 51/52( 不在最左边) * 26/51( 与自己不一样) = 27/52。E = 27/52 * 52 = 27。这里红黑个数不一样时, 要像猫狗一样各自算好加起来。
- 在圆弧n个点依次相连( 包括首尾) 会有n条弦。求圆内交点个数的期望:
我们考察不相邻的两条边弦( 相邻点的连线) 的四个点情况, 它们相交的概率为1/3( 固定1, 234排序决定是否相交) 。n条边弦取不相交的两条弦一共n*(n-3)/2 种可能( 一条取定义后相邻两条就不能取了) , 所以n*(n-3)/2*1/3
- 圆上N个点两两相连以后分割的个数( Dividing a circle into areas) : $ C_4^N + C_2^N + C_0^N $ , $ C_0^N $ :原本大圆; $ C_2^N $ :每连一条弦就会多出一块; $ C_4^N $ :每一个四边形就等效的多交出线段上的一个点。
- Bubble sort 一轮排完的概率?
解:也就是说容许的只能是每次比较在正确的两个数字上做交换或者不交换。所以答案是
$ 2^{n-1}/n! $
- Bubble sort 需要swap次数期望等价于错序的对数*错序概率( 1/2) =>
$ C_n^2 \times \frac{1}{2} = \frac{n(n-1)}{4} $
- 100扇门开100次, 被开过的门的个数期望。
解: Xi 每扇门至少开1次的概率累加
- 两个桶各400个球, 等概率取, 求A桶取完时候B桶剩下球的期望( 负二项分布) :
解:
$ X_1 = k $ : 取到第1个A球时, 取了k个B球~Geometric(1/2), E = 1/p, Var = (1-p)/p^2;
第2个A球和第3个A球之间也是一样的分布。
$ S = X_1 + \cdots + X_n $ : 取出n个A球时, 取了S个B球。
用CLT 求 $ E[S|S \leq 400, n = 400] $
- 不同的是, 一个袋子里a个红球, b个白球, 直到只剩一种球, 剩下是红球的概率
$ P(a) = \frac{a}{a+b} $ 这里只要考虑一个排列里面最后一个是红球的概率。
- 青蛙从0开始等概率跳[0, 1, …n],问青蛙跳出(>)n-1的期望步数:
解: E(i) 站在i位置上跳出的期望, 则
$ E[j] = 1 + \frac{1}{n+1} \sum_{k=j}^{n-1} E_k $
有
$ E(n-1) = \frac{1+n}{n}, E[j] = \left(1 + \frac{1}{n}\right)^{n-j} $
$ E(0) = \left(1 + \frac{1}{n}\right)^n $
所以当n → ∞, 即跳跃Uniform(0, 1)时, E(0)=e。
- 拍卖会你出a, 别人出b, 如果a>b, 你拍得然后按1.5*b的价格卖掉。求你的期望盈利? a, b独立均匀分布U(0, 1000)。
解: 当a给定, b比a小的概率为a/1000, b均值为a/2。所以期望盈利是
$ a/1000(a/2*1.5-a) = -a^2/4000 $
严格的解法应该是盈利:
$ g(a, b) = \begin{cases} 0, & a < b \\ 1 . 5b - a , & a \geq b \end { cases } $
$ \int g(a, b) dadb, a, b \sim U(0,1000) $
- A射中概率1/3, B=2/3, C=1。A,B,C 轮流射击, 问A最后存活的概率P。
解: A一开始肯定不能打死B, 而是看BC 决斗。所以:
$ P = P(B \text{ kill } C) \times P(A \text{ kill } B) + P(C \text{ kill } B) \times P(A \text{ kill } C) = \frac{2}{3} \times \frac{3}{7} + \frac{1}{3} \times \frac{1}{3} $
- (R) 每天从U(0,1) 中产生一个数u, 最多保留k个, d天以后想要和最大的最优策略。
解:动态规划。注意 $ V(1,k,u) = u $
You can solve the problem via dynamic programming. The states are $ (d, k, u) $ , where $ d $ is the number of days remaining, $ k $ is the number of "keeps" remaining, and $ u $ is the current uniform number. Let $ V(d, k, u) $ be the maximum expected sum in state $ (d, k, u) $ , and note that
$
V(d, k, u) = \max \left\{ u + \int_0^1 V(d-1, k-1, t) dt, \int_0^1 V(d-1, k, t) dt \right\},
$
with boundary conditions
$
V(d, 0, u) = 0 \\
V(0, k, u) = 0
$
The optimal value is $ \int_0^1 V(10, 3, u) du $ . The optimal strategy is to keep if
$
u(d, k, u) \text{ 表示当前d天有k个数最后抽到u的最大期望。它有两种情况, 一种是d-1天时候只有} \\
k-1个数最后一个为t, 抽到u后凑齐k个; 或者是k个抛弃u。积分是对应t各种的概率( 密度) 。
https://math.stackexchange.com/questions/3842875/maximize-expected-sum-of-uniformly-chosen-numbers
- 机器人进入一半H一半T的房间, 随机选取一个硬币。如果是H就变成T; 如果是T就随机抛(1/2 H, 1/2 T),求最后 H, T 的 stationary distribution?
解: 可以当作H, T的两点分布, 也就是说H, T的分布达到p, 1-p的情况下, 在转移矩阵:
$
\begin{pmatrix}
H & T \\
H & 0 & 1 \\
T & 0.5 & 0.5
\end{pmatrix}
$
下分布不变(stationary distribution) $ (p,1-p) \Rightarrow p = \frac{1}{3} $
- i.i.d. 人身高中选出一个 X, 再选一个超过X需要的期望人数?
解:给定 X=x, 大于X的概率为1-CDF(x), 期望人数是几何分布的mean: $ 1/(1-CDF(x)) $ 。全期望公式:
$
\int_{-\infty}^{\infty} \frac{1}{1-CDF(x)} PDF(x) dx = -\ln(1-CDF)^{\frac{1}{n}} = \infty
$
- 一个人平均每天收到4封junk mail, 请问他一天收不到junk mail的概率是多少?
解: 这里假设n个senders每天以p的概率独立发送, 所以每天收到邮件是一个(n,p)的伯努利分布。
$ p = \frac{4}{n} $ ,一天不收到邮件的概率: $ (1-p)^n = \left(1 - \frac{4}{n}\right)^n \Rightarrow e^{-4} $
follow up: 夏天发邮件概率比春天高,求不收到邮件概率变化。
解: 这里假设夏天每天收到a, 春天每天收到b: a+b = 4*2, 所以, 每天不受到邮件的概率
$ \frac{1}{2}(e^{-a} + e^{-b}) > e^{-4} $
- 100扇窗户50天, 通过打破来传递信息。最多能传递多少信息?
解: 51^100。每一扇玻璃*某一天打破的组合, 51指不打破
如果第二个人能修复打破的玻璃,则能交互多少信?
解: $ (2^{100})^{50} $ 。每次打破完都修好,因此每天每一扇玻璃破/不破50天的组合
- n 个点每两点有连线的概率是 p, 问形成 k 点环路的个数的期望。
解: k 点环路因为和连接顺序有关,所以第一个点有 n 种可能,第二个点有 n-1 种可能。n(n-1)(n-2)…(n-k+1)。但里面 k 个点可以重复做起点,再加上顺时针逆时针可以重复 2 次,所以 $ \frac{p^k}{2k} $ 每 k 个点形成环路的概率为 $ p^k $ 。所以最终期望为 $ \frac{p^k}{2k} $
- change paradox (Two envelop problem): 两个信封里面一个是另一个的两倍,问你是否交换信封。
解:一种错误的解释是假设手看到 x, 则 0.5*2x + 0.5 * x/2 = 1.25x。所以要换。但不对的是这里应该固定(m,2m)。
不换是 Y, 还完以后是 X, P(X=2m|Y=m) = P(X=m|Y=2m) = 1, 其他 Y 的 conditional probability 都是 0。所以
$ E[X] = E[X|Y=m]P(Y=m) + E[X|Y=2m]P(Y=2m) = 2m*0.5 + m*0.5 = 1.5m. $ E[Y]=1.5m 对称,所以不交换。
- 1到1000排列在圆上删除偶数, 一轮下来最后那个作为新的1开始第二轮。求最后幸存的?
解: 可以递归证明2^n最后肯定幸存 1. 1000等价于1024个已经删除了24个(48), 49作为1开始, 则1024对应976, 1对应977
- 有正态偏差N(0, σ ^2)的尺, 量A,B不同长度, 在给定次数下方差最小: X = A + B, Y = A - B ∼ N(0, σ ^2),每次 A = \frac{X+Y}{2}, B = \frac{X-Y}{2} ∼ N(0, σ ^2/2)
1) 但如果是有偏差的两把尺量同一个东西, 则就是用MLE估计均值( 方差已知) : y_i ∼ N(\mu, \sigma^2) 即加权平均
2) 三角形的三条边长的测量值分别是x_1, x_2, x_3。已知三角形周长为确定值p。观察值:
$ X_i = p_i + \epsilon_i, \epsilon_i ∼ N(0, \sigma^2). $
对 p_i, \sigma^2 求带限制的MLE with $ p_1 + p_2 + p_3 = p $
- (H) 每次拿u比例赌博, p概率赢了翻倍, 输了没有。问最优的u?
解: MLE: $ \log (1 + u)^a (1 - u)^b = p $
$ u = 2p - 1 $
- 前500个里有若干个1, 后500个里有若干个3, 其他都是0。问最后得分1500最有可能的3的个数。
解: 假设每次取0/1, 0/3都是等概率, 为二项分布, 则x/y 就可以近似成mean 250 的两个独立正态。P(x,y) 就是联合分布最大即最接近中心的点。也就是求最大的条件概率P(y|x+3y=1500)。
即从(250, 250) 往x + 3y = 1500做垂线=>y等于400。
MLE 取1000个取到x个1和y个3的概率(其他都是0): $ C_{500}^x \times C_{500}^y \mid x \leq 500, y \leq 500, x + 3y = 1500 $ .
- N辆车在路上, 只要前面有比自己慢的车就记为一个block, 求block期望.(注意题目的意思每个车成为block与否)
解: 考察最快的那辆, N+1个位置可以放: $ E[N+1] = \frac{1}{N+1} $ (最前面) * $ E[N] $ (不影响) + $ N/(N+1) $ * ( $ E[N] + 1 $ ) = $ E[N] + N/N+1 $
- 随机5种颜色的mm豆(infinite packs), 如果100个中他说对了40个, 你是否相信他真的能尝出来?
解: 零假设他是随机猜, 中心极限定理近似猜对个数的分布, mean=100*1/5=20, 很多方差之外, 小的p拒绝零假设, 说明真的能尝出来
- (R) 26红26黑依次翻开, 你可以随时猜一种颜色。如果接下来连续两张都是你猜的颜色, 你就赢。最优策略。
解: 直到最后两张再猜, 如果当前有(r,d)剩下的话, 你赢的概率即最后两张一样的概率为 $ \frac{r}{r+b} $ , 而立刻猜的概率只有其中一项。注意赢的概率随着剩下的牌是改变的。
直观上可以解释为头尾牌连续两张一样的概率是对称的, 但尾不需要猜颜色。
- (R) 题目改为选中一张(假设r), 看next与选中是否一致。立刻Stop, 赢的概率是 $ \frac{r}{r+b} $ 。我们策略当翻开倒数第三张时, 如果剩下的一样(概率即为上面所示)就继续; 如果剩下两张不一样(概率= $ \frac{2rb}{(r+b)(r+b-1)} $ ), 我们可以立刻stop, 有1/2的概率当前一样。所以最终赢的概率为:
$
\frac{r}{r+b} + \frac{b}{r+b} \geq \frac{r}{r+b}
$
https://math.stackexchange.com/questions/2663911/stopping-problem-question
- (H) n个人m个位置没有相邻的人数期望。 $ E_{n,m} $ , 考虑第一个坐两端或者中间的概率
$
E_{n,m} = \frac{2}{m} (\text{两端}) \times E_{n-1,m-2} + \frac{m-2}{m} (\text{中间}) \times E_{n-1,m-3}
$
求 $ E_{N,N} $ 循环的时候, 手动输入 $ E_{n,2} = E_{n,1} = 1, E_{n,0} = E_{0,n} = 0 $ 值,
for (int n=3; n< =N; ++n) for (int m = 3; m< =n; ++m)
- n个人m个位置没有人相邻的概率( $ m \geq 2n - 1 $ )。m-n个隔板,n放到m-n+1的空档中:
$
P = \frac{C_{m-n+1}^n}{C_m^n}
$
- n个黑m个白, 黑不相邻的排列的个数。黑色放到m+1个空格里: 直线: $ C_{m+1}^n $ ;环: $ C_m^n $ ;
- $ x+y+z=N $ , $ x \leq y \leq z $ , 求解个数/N^2极限:
没有等式条件/排序: $ C^2_N/3! $ , 这里相等时候重复计算的都是N^2的低阶项=>1/12
- 井字XO游戏(tic tac toe)随机放(5X+4O),平的概率。
解: X在中间, 横竖两条对角线都只能放1个, 所以 $ 2^4 = 16 $ ,其中要减去共线的 $ 4 \times 2 = 8 $ , 所以是8种。
0在中间, 按X占四个角的个数讨论: 4个角=0, 3个角=4, 2个角=4( 不能占对角线两个角, O会共线) , 1个角=0, 所以一共4+4=8。最后 $ P = \frac{8+8}{C_9^2} $
### 公式
- 如果X是有非负支撑集则:
$$ E[X] = \int_0^\infty P(X > x)dx $$ 或者离散:
$$ E[N] = \sum_{n=0}^\infty P(N > n) = \sum_{n=1}^\infty P(N \geq n) $$
- 任意多个坐标算面积(Shoelace formula):
$$ p = \frac{1}{2} |x_1y_2 + x_2y_3 + \cdots + x_ny_1 - x_2y_1 - x_3y_2 - \cdots - x_ny_{n-1} - x_1y_n| $$
对任意包括非凸也成立。
- 判断点是否在三角形内部,可以通过外积符号相同在向量同一侧判断:
$$ (a_1, b_1) \times (a_2, b_2) = a_1b_2 - a_2b_1 $$
但如果所有点都是格点是使用坐标面积比较快
- Normal X, 正负部分的相关系数 $ X^+ = X, X > 0; 0 $ else:
$$ E[X^+] = E[X^-] = \int_0^\infty \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt = \frac{1}{\sqrt{2\pi}} $$
$$ E[X^+ \cdot X^-] = 0 $$
since $ X^+ \cdot X^- = 0 $ .
$$ Var(X^+) = Var(X^-) = E[(X^+)^2] - (E[X^+])^2 = \int_0^\infty \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt - \frac{1}{2\pi} = \frac{1}{2} - \frac{1}{2\pi}. $$
So
$$ corr(X^+, X^-) = \frac{0 - \frac{1}{2\pi}}{\frac{1}{2} - \frac{1}{2\pi}} = \frac{1}{1 - \pi}. $$
这里 $ E[X^2] = E[(X^+ + X^-)^2] = E[(X^+)^2] + E[(X^-)^2] = 1 $
- $ X_1 \sim U(0,1), i.i.d., X_1 + \cdots + X_n \leq 1 $ 体积为
$
\frac{1}{n!} \int_0^1 \int_0^{x_3} \int_0^{x_2} 1 \, dx_1 \, dx_2 \, dx_3
$
- 任意分布 $ f(x) \sim (\mu, \sigma^2) $ 我们可以构造一个 size biased population: $ f^*(x) = \frac{xf(x)}{\mu} $ ,新的有偏样本 $ X^* $ 就是说值越大被抽中的概率越大,我们有 $ E[X] = 1/E^*[X^{-1}] $ 即等于有偏样本的调和平均。比如说调查每栋楼里住人数,因为住的人越多的楼越容易被抽中,因此我们要计算有偏样本的调和平均来代替算数平均。
- 回归: $ R_1^2: y \sim x_1, R_2^2: y \sim x_2 $ ,则 $ R^2: y \sim (x_1, x_2) \in [\max(R_1^2, R_2^2), 1] $
$ y $ 和 $ x_1, x_2 $ 同平面是 1, 与小的垂直时是较大的 R-square。增加特征, R-square 增加所以 $ R^2 \geq \max(R_1^2, R_2^2) $ 。几何上就是余弦乘积定理: $ R^2 = R^2 \cdot \cos^2 \alpha $
- 如果线性规划假设 $ y = ax + \epsilon $ 和 $ y = a'(x + \epsilon) $ 比较, $ a' > a $ 。这是因为 $ x = \frac{1}{a'} y - \epsilon $ ,我们有 $ \frac{1}{a'} \cdot a < 1 $
- 如果知道 $ X, Y $ 的 mean 和 Var 是定值(假设 (0, 1))。则 $ Y = \beta X $ , LSE 的最优解:
$
\min E[(Y - \beta X)^2] \iff \min \text{Var}[Y - \beta X] \Rightarrow \beta^* = \frac{\text{Cov}(X, Y)}{\text{Var}[X]}
$
这时候 $ Y $ 对 $ X $ 和 $ X $ 对 $ Y $ 的 slope 是一样的,因为 $ \text{Var}[X] = \text{Var}[Y] = 1 $
- 如果 $ (x, y) $ 是 $ 0 < x , y \leq 1 , x + y \geq 1 . 5 $ 的三角形内均匀分布 , 求 $ y $ 对 $ x $ 回归的系数期望 ?
解:当 $ x $ 固定时, $ y $ 是 $ (1.5 - x, 1) $ 上的均匀分布。所以根据回归的定义 $ E[Y|X] = (1 + (1.5 - x))/2 = -0.5x + 1.25 $
- Training error: $ E[(y_i - \hat{y}_i)^2] $
Prediction error: $ E[(y'_i - \hat{y}_i)^2] $
这里的区别就是 $ y_i $ 与 $ \hat{y}_i $ 相关; $ y'_i $ 与 $ \hat{y}_i $ 无关;
$
E \left[ \frac{1}{N} \sum (y'_i - \hat{y}_i)^2 \right] - E \left[ \frac{1}{N} \sum (y_i - \hat{y}_i)^2 \right] = \frac{2\sigma^2}{N} (1 + n)
$
$ n $ 是变量维数。所以 Prediction error 大于 Training error
http://www.stat.cmu.edu/~larry/=stat401/lecture-21.pdf
- $ \text{corr}(x, y) = a, \text{corr}(y, z) = b $ ,求 $ \text{corr}(x, z) $ 范围
解答 1: $ ab \pm \sqrt{(1 - a^2)(1 - b^2)} $
$
\begin{bmatrix}
1 & a & x \\
1 & b & x \\
a & b & 1
\end{bmatrix} \geq 0
$
解答 2: 可以用 $ \cos(\alpha \pm \beta) = \cos \alpha \cos \beta \mp \sin \alpha \sin \beta $ ? $ x $ 和 $ z $ 的夹角在 $ (\alpha - \beta, \alpha + \beta) $ 之间,注意这是高维空间,不是在平面内。
- 已知两个伯努利分布(比如违约概率),求 rho 的范围。
解:用 rho 表示一起违约的概率在 $ [0, 1] $
产生均匀点:
(1)直角三角形延伸成矩形,不再三角形内的按对角线对称回来;
(2) 任意三角形
(3) 任意多边形,分割成多个三角形,按面积为权重产生多点分布。然后在对应三角形产生均匀点:
https://blogs.sas.com/content/iml/2020/10/21/random-points-in-polygon.html
- $ P(X>0|X+Y>0) = P(X>0,X+Y>0)/P(X+Y>0) = 3/4 $ , $ P(X,Y) $ 是旋转面, 只要看面积就可以了。注意这只对过0点的底面积成立
- $ E[X|X+Y=1] \Rightarrow E[X+Y|X+Y=1] = 1 = 2k \Rightarrow k = 1/2 $
- $ P(X=x|X+Y=1), Z = X+Y \Rightarrow P(Y=1-X|X=x)*P(X=x)/P(Z=1)= P(Y=1-x)*P(X=x)/P(Z=1) $ ,注意这里 $ P(Y=1-X|X=x)= P(Y=1-x) $ ,但 $ P(Y=Z-x|Z=1) $ 不等于 $ P(Y=1-x) $ ,因为 $ Y $ 和 $ X $ 独立但是和 $ Z $ 不独立
- 证明 $ X,Y $ i.i.d, $ E[X/Y] \geq 1: E[X/Y] = E[X]E[1/X] \geq E[X]*1/E[X] = 1 $ 。这里用到 $ 1/X $ 是凸函数
- $ XX^T = I $ 时, $ \hat{\gamma}_{ridge} = \frac{1}{1+\lambda} \hat{\gamma}_{LSE} $ ,与 $ y $ 的夹角与 $ \lambda $ 无关。
- Sharpe ratio $ r $ to estimate loss: assume return is normal $ \Rightarrow P(Z + r< 0 ) \Rightarrow P * T $ 。
如果是n天return 就是i.i.d.的 $ R_1 + \cdots + R_n $ 加起来
- 某股票收益超过5%的概率是2%, 交易两年, 收益大于5%天数大于100概率: binomial 用 $ N(np,np(1-p)) $ 估计
- 一个stock beta=2, vol = 0.03. 昨天market return 0.01, 则今天stock分布就用 $ N(0.01*2, 0.03^2) $ 估计
- (H) Monthly Sharpe 变成 annually sharpe, 当 daily return IID 时候 * $ \sqrt{12} $ ; 自相关都是 $ \rho $ 时候:
这里面q=12个月, 即正的自相关会加大var从而减小sharpe
https://alo.mit.edu/wp-content/uploads/2017/06/The-Statistics-of-Sharpe-Ratios.pdf
- 筛法(sieve method)求n以内素数的时间复杂度:
$ \sum_{p< n , \text { prime }} \frac { n }{ p } \sim n \log n \log n $
https://leetcode-cn.com/problems/count-primes/solution/zhe-ge-da-gai-shi-wei-yi-yi-ge-zheng-ming-liao-shi/
- i-th Order CDF:
$ P(X_{(k)} \in [x, x+\epsilon]) = P(\text{one of the } X's \in [x, x+\epsilon] \text{ and exactly } k-1 \text{ of the others } < x )
$
$ = \sum_{i=1}^{n} P(X_i \in [x, x+\epsilon] \text{ and exactly } k-1 \text{ of the others } < x )
$
$ = nP(X_1 \in [x, x+\epsilon] \text{ and exactly } k-1 \text{ of the others } < x )
$
$ = nP(X_1 \in [x, x+\epsilon])P(\text{exactly } k-1 \text{ of the others } < x )
$
$ = nP(X_1 \in [x, x+\epsilon]) \left( \binom{n-1}{k-1} P(X < x )^{ k-1 } P ( X > x)^{n-k} \right)
$
$ f(k)(x) = nf(x) \left( \binom{n-1}{k-1} F(x)^{k-1} (1 - F(x))^{n-k} \right)
$
- n个点随落在单位圆上, 求点(1,0)所在圆弧的期望?
解: $ \frac{4\pi}{n+1} $ [0,1]把那段圆弧分成两段,每一段可以看成三个[0,2\pi]的均匀分布的最小值的期望( 用期望CDF公式) :
$ E[\min(X_i)] = \int_0^{2\pi} \prod P(X_i > x)dx = \frac{2\pi}{n+1} $
左右两段加起来就是 $ \frac{4\pi}{n+1} $ .
- 期望长度, 长度为1的木棍分成三段, 最小一段的期望。
解: 如果x, y 因为三段等概率最小, 所以不妨假设x是最小一段。x< y , x < y-x , x < 1-y
x,y应该是左边三角上的均匀分布。所以条件联合密度f(x,y|x最小) = 6.
$$
E_{x,y}[\min|x|_{\text{最小}}] = \int (\min |x|_{\text{最小}}) f(x,y|x|_{\text{最小}}) \, dx \, dy = \int x \cdot 6 \, dx \, dy
$$
注释: n个Uniform的和称为Irwin-Hall 分布
https://math.stackexchange.com/questions/13959/if-a-1-meter-rope-is-cut-at-two-uniformly-randomly-chosen-points-what-is-the-av
- $ [0,1] $ 上两点距离的期望。假设 $ y > x $
$
\int_0^1 \int_x^1 2 \cdot (y - x) \, dy \, dx = \frac{1}{3}
$
这里错误的解法是给定x, y的均值是 $ (1+x)/2 $ , 再对x $ [0,1] $ 积分, 这里x的边际分布不再是uniform
- 直角三角形(3,4,5)内点到三边距离和期望: $ E[x+y+z] $ .
解: 斜边距离z可以用面积计算为x,y线性函数。求x的边际分布( 这里假设y到原点, x到顶点)
$
f(x) = \int_0^{\frac{4}{3}} \frac{1}{6} \, dy = \frac{2}{9} x, \quad E[X] = \int_0^3 x \cdot \frac{2}{9} x \, dx = 2
$
到原点的X为互补: $ E[X] = 3 - 2 = 1 $
对y也可以用全期望公式:
$
E[Y] = \int_0^3 E[Y|x]f(x) = \int_0^3 \frac{2}{3} x \cdot \frac{2}{9} x \, dx = \frac{4}{3}
$
- N个均匀分布的和正好超过1, 也就是Renewal processes. $ S_n = \sum_{k=1}^{n} U_k $ ,对于 $ x \leq 1 $
$
N(x) = \min_n (S_n > x) = \sum_{n=1}^{\infty} \mathbb{I}_{S_n \leq x} + 1
$
我们有
$
m(x) = E[N(x)] = \sum_{n=1}^{\infty} P(S_n \leq x) + 1 = \sum_{n=1}^{\infty} \frac{x^n}{n!} + 1 = e^x
$
如果我们想计算超出1时最后一个数的期望, 我们有它的pdf:
$
f(x) = \sum_{n=1}^{\infty} P(N = n, X = x) = \sum_{n=1}^{\infty} P(S_n < 1 \leq S_n + x ) = g ( 1 ) - g ( 1 - x )
$
$ E[X] = \int_0^1 xf(x) = 2 - \frac{e}{2} $
https://math.stackexchange.com/questions/734700/draws-from-the-uniform-distribution-are-taken-until-the-sum-exceeds-1-what-is-t
https://math.stackexchange.com/questions/214399/summing-0-1-uniform-random-variables-up-to-1
- (R) U(0,1) 上取数,不递增就停止,求期望长度?
解: 假设N是递增的个数 $ P(N \geq k) $ 等价于选定前k个( 不同) 的数是递增的概率为 $ \frac{1}{k!} $ 。注意这里是 $ \geq k $ 不是 $ = k $ , 不是正好是在k破坏递增。所以
$ E[N] = \sum_{k=1}^{\infty} P(N \geq k) = \sum_{k=1}^{\infty} \frac{1}{k!} = e - 1 $
这个只对任意连续分布成立即等号概率为0。
也可以计算 $ P(N = k) = P(N \geq k) - P(N \geq k + 1) = \frac{k}{(k+1)!} $ 。这个可以用来计算递增序列和的期望。
https://stats.stackexchange.com/questions/350923/brain-teaser-what-is-the-expected-length-of-an-iid-sequence-that-is-monotonical
a) 如果改为从n个数中不放回选取也就是U(0,1)的极限情况。
https://math.stackexchange.com/questions/2902335/expected-value-of-dice-rolls-to-get-a-non-decreasing-sequence-of-roll-values
- Coupon collector’ s problem: 从1,2, … , n 中均匀产生数字,求产生所有数字的期望步数。
解: $ t_i $ 产生了i-1个不同数字后, 产生第i个不同数字的需要的步数, 则 $ t_i \sim \text{Geometric} \left( \frac{n-(i-1)}{n} \right) $ 。所以:
$ E = E[t_1] + \cdots + E[t_n] = \frac{n}{n} + \frac{n}{n-1} + \cdots + \frac{n}{1} = n \left( \sum_{k=1}^{1} \frac{1}{k} \right) \rightarrow n \log n $
$ \text{Var} = \text{Var}[t_1] + \cdots + \text{Var}[t_n] = \frac{n^2}{n^2} + \frac{n^2}{(n-1)^2} + \cdots + \frac{n^2}{1^2} = n^2 \left( \sum_{k=1}^{1} \frac{1}{k^2} \right) \rightarrow n^2 \frac{\pi^2}{6} $
- 1有 a1个, 2有a2个, 3有a3个, 无放回抽求到三种需要次数的期望。有放回就类似 Coupon collector’ s problem。无放回需要利用 $ E[N] = \sum_{n=1}^{\infty} P(N > n) $
$ P(N > n) $ 就是说选n个至少有一种没拿到, 用容斥原理Bi: 有没i
$ P(N > n) = \frac{C^n_{a_1+a_2} + C^n_{a_2+a_3} + C^n_{a_3+a_1} - C^n_{a_1} - C^n_{a_2} - C^n_{a_3} + C^n_0}{C^n_{a_1+a_2+a_3}} $
$ a > b, C^n_0 = 0 $ 。这里化简需要用到
$ \sum_{n=1}^{a+b} \frac{C^n_{a}}{C^n_{a+b}} = \frac{a}{1+b} $
### 矩阵
- 全是c的covariance matrix (dim = n+1)特征值 n 个 1-c, 1个 1+nc. 硬算行列式。类似对角线都是n,其他都是1的矩阵(dim=n)是1个2n-1,n-1个n-1,所以他们都可以对角化; 2n-1可以从[1,1,…,1]是特征向量里看出
- 半正定矩阵乘积依然半正定: $ AB(AB)^T = A(BB^T)A^T \sim BB^T $
- $ A^k = 0 $ , 如果A可以对角化则A =0;否则都是阶数至多为k的诺当块。每多一个诺当块, rank就减1. 所以rank最大n-n/k 向上去整
- $ F_2 (1 + 1 = 0) $ 上都是 0/1 的矩阵,可逆的可能性。
解:每一行2^n选择,第一行不能为零所以2^n - 1. 后面的为了不退化就不能写成前面几行线性组合的形式即每行系数可以选择 0/1. 这样第 i 行就有2^n - 2^{i-1}种组合。所以一共有:
$
(2^n - 1)(2^n - 2) \cdots (2^n - 2^{n-1})
$
- A 都是 0,1 的 n 阶矩阵,如果 A*A=0,最多多少 1
解:A 看成 n 点转移矩阵(1 代表能否到达,并非 markov 矩阵), A*A=0 说明没有三个不同点的连线。最多 1 即最多不连通两点有向连线。即把 n 个点分成两半,两堆任意组合。
偶数:n/2*n/2; 奇数:
$
(n-1)/2*(n+1)/2
$
### 马尔可夫链公式
- $ s $ 是一个吸收状态( $ p_{ss} = 1, p_{si} = 0 $ ), $ a_i, i = 1, \cdots, M $ 是从 i 出发到达 s 的概率,则 $ a_i $ 满足方程组:
$
a_i = \sum_{j=1}^{M} p_{ij}a_j
$
这里 $ a_s = 1, a_t = 0 $ , t 是其他吸收状态。即 i 的下一个所有可能状态的累加,注意停留在自身状态 $ a_i $ 也有可能是下一个状态。
- $ \mu_i $ 是从 i 出发到达 s 的步数期望,则 $ \mu_i $ 满足方程组:
$
\mu_i = 1 + \sum_{j=1}^{M} p_{ij}\mu_j
$
这里 $ \mu_s = \mu_t = 0 $ , t 是所有吸收状态。 $ \mu_s = 0 $ 是因为已经在 s 不需要移动了。+1 是因为到下一步需要 1 个回合,注意这里即便是原地不动也算一个回合。
- M 有 1 块钱,N 有 2 块钱,每次 M 有 2/3 的概率赢 N 一块钱,1/3 概率输一块钱。游戏结束直到一方破产。求 M 赢的概率。
解答: M 手上的钱作为马尔可夫链的状态,它的转移函数
1 是起始状态, 0, 3 是吸收状态, $ a_i $ 就是从 $ i $ 出发到 3 的概率,问题的解就是求 $ a_1 $ 。
$$ a_1 = \frac{2}{3} \cdot a_2 $$
$$ a_2 = \frac{1}{3} \cdot a_1 + \frac{2}{3} \cdot a_3 $$
$$ a_3 = 1 $$
- A、B 抛两枚筛子,抛到和 12 A 赢;连续抛出两个 7 B 赢。求 A 赢的概率。
解答:影响输赢的有效状态 12、7、7-7, 其他状态等效于回到原点 S, 所以如下转移概率图:
$$ a_{12} = 1, a_{7,7} = 0 $$
$$ a_5 = \frac{1}{36} \times 1 + \frac{6}{36} \times a_7 + \frac{29}{36} \times a_5 \Rightarrow a_5 = \frac{7}{13} $$
$$ a_7 = \frac{1}{36} \times 1 + \frac{6}{36} \times 0 + \frac{29}{36} \times a_5 $$
$ a_i $ 为从 $ i $ 出发到达 12 的概率,问题的解就是求 $ a_5 $ 。
- 连续抛硬币,求抛出 HHH 和 THH 需要次数的期望。
解答:
(1)HHH: 一旦抛出 T 就等价于回到起点 S, 所以转移概率图:
$$
\mu_S = 1 + \frac{1}{2} \mu_S + \frac{1}{2} \mu_H
$$
$$
\mu_H = 1 + \frac{1}{2} \mu_S + \frac{1}{2} \mu_{HHH}
$$
$$
\mu_{HHH} = 1 + \frac{1}{2} \mu_S + \frac{1}{2} \mu_{HHH}
$$
$$
\Rightarrow \begin{cases}
\mu_S = 14 \\
\mu_H = 12 \\
\mu_{HHH} = 8 \\
\mu_{HHHH} = 0
\end{cases}
$$
$ \mu_i $ 为从 $ i $ 出发到达 HHH 的期望步数,问题的解就是求 $ \mu_S $ 。
(2)THH:
$$ \mu_S = 1 + \frac{1}{2} \mu_S + \frac{1}{2} \mu_T $$
$$ \mu_T = 1 + \frac{1}{2} \mu_S + \frac{1}{2} \mu_{THH} $$
$$ \mu_{THH} = 1 + \frac{1}{2} \mu_S + \frac{1}{2} \mu_{THH} $$
$$ \Rightarrow \begin{cases}
\mu_S = 8 \\
\mu_T = 4 \\
\mu_{THH} = 2 \\
\mu_{THHH} = 0
\end{cases} $$
- 等概率随机游走 $ S_n $ , $ E[S_n] = 0, \text{Var}[S_n] = n $ 。 $ S_n $ 和 $ S_n^2 - n $ 都 martingale 即 $ E[S_n] = E[S_n^2 - m] = E[S_n^2 - n] = 0 $
- $ N $ 是 stopping process, $ X_i $ iid, $ S_N = X_1 + \cdots + X_N $ ,则 $ E[S_N] = E[X]E[N] $
- 抛出希望序列次数的期望用 stopping process martingale 来解( HHTTHH 为例):
解答: $ E[S_n - n] = 0 $ is martingale。 $ E[S_n] $ 的计算方法为 HHTTHH 有多少个和结尾重合的状态
随机游走
- 在 17m 处随机游走,求在到 0m 前先到 100m 的概率。求到达 0m 或者 100m 的步数期望。
解答:我们把起始点设为 0 使得坐标与标准随机游走一致而可用 martingale 的性质,则 0m 变为-b, 100m 变为 a。设 $ p_a $ 为停在 a 的概率, $ 1 - p_a $ 即为停在-b 的概率。设 N 为 stopping process 即到达两端。则解即是求 $ p_a, E[N] $
$$ E[S_N] = 0 = a * p_a + (1 - p_a) * (-b). $$
$$ E[S_N^2 - N] = S_0^2 - 0 = 0 = E[S_N^2] - E[N] = a^2 * p_a + (1 - p_a) * (-b)^2 - E[N] $$
$$ => p_a = \frac{b}{a + b}, E[N] = ab $$
这里用到了 stopping process $ S_N^2 - N $ 还是 martingale。
这里 $ p_a $ 也是从 0 点出到达 a 在到达-b 之前的概率。等价的问题 a, b 谁先输光 (gambler’ s ruin)
这里单边吸收状态等价与 $ a = \infty $
递推推导:把左边作为 0, 右边作为 a+b, $ E_0 = E_{a+b} = 0, E_n = 1 + 0.5E_{n-1} + 0.5E_{n+1} $
齐次特解: $ A + Bn $ 非齐次特解 $ n^2 $ , 所以 $ E_n = A + Bn + n^2 $
一般的单/双 barrier 不等概率讨论:
http://www2.math.uu.se/~sea/kurser/stokprocmn1/slumpvandring_eng.pdf
- 圆上 n 个点,从某点出发,遍历剩下 n-1 个点后,最后停在 x 点的概率?
解:[x-1, x, x+1] 等价于下面两种互斥情况的并 (>) 代表先到):
a. 0->x-1->x+1->x: $ P(0 $ 出发 $ x-1>x+1) * P(x-1 $ 出发 $ x+1>x) $
b. 0->x+1->x-1->x: $ P(0 $ 出发 $ x+1>x-1) * P(x+1 $ 出发 $ x-1>x) $
注意全部遍历只剩 x 以后就不用讨论,因为最后只能停在 x。利用上面的定理:
$$ P = \frac{n - 1 - x}{n - 2} * \frac{1}{n - 1} + \frac{x - 1}{n - 2} * \frac{1}{n - 1} = \frac{1}{n - 1} $$
即等概率最后到达所有点。
https://math.stackexchange.com/questions/116446/random-walk-on-n-cycle
非等概率游走
https://math.stackexchange.com/questions/1432301/last-vertex-visited-by-the-symmetric-random-walk-on-a-discrete-circle
- symmetric random walk 到每一点的概率是1, 期望步数是无穷
二维独立 Brownian motion, hit 单位圆的时间 expectation. 利用 $ Z(t) = W^1_t(t) + W^2_t(t) - 2t $ martingale, 则 stopping time $ E[Z(0)] = E[Z(\tau)] = 1 - 2E[\tau] = 0 \Rightarrow \tau = \frac{1}{2} $ . 椭圆也类似
- (a, b) 出发 2d BM, 碰到 x 停下来。问在正半轴的概率。
解: 夹角是 martingale. 利用 stopping martingale
$ E[A_\tau] = P(Z = 0) \cdot 0 + P(Z = \pi) \cdot \pi = E[A_0] = \arctan \frac{b}{a} $
### 贝叶斯公式
- 真假阳性
A: 普通人群中的王宏感染 X 病
B: 阳性结果
P(A) 普通人群中感染 X 病的概率
P(B|A) 阳性结果的正确率
P(A|B) 有了阳性结果的条件下, 王宏感染 X 病之概率
P(B) 结果为阳性的总可能性 = 检查阳性中的真阳性 + 检查阴性中的真阳性
- 三枚硬币 H 的概率为 a, b, c. 均匀选一枚抛两次, 求第一次 H 情况下第二次 H 的概率?
解: $ P(H_2|H_1) = P(H_2, H_1)/P(H_1) $ . $ P(H_2, H_1) = 1/3(a^2 + b^2 + c^2) $ , $ P(H_1) = 1/3(a+b+c) $
更一般的, 一枚硬币 H 的概率 $ p \sim U(0, 1) $ , conditional on $ p $ , 最后对 $ p $ 积分
- 3*3*3 的立方体表面全部涂红, 切开后从 27 块里面随机选一块抛一下, 发现看到的五面都是白的, 问你贴在地面上是红的概率是多少?
解: 注意这里不是 6(5 白 1 红)/7(有 5 白), 条件不是选到 5 白抛, 而是随机选一个, 抛出 5 白。
- (H) k 个鸡蛋扔 n 次最多能测几层楼是安全的即从该层扔下去一定不会碎
解答:记 $ f(n,k) $ 是能够测试出的最多安全楼层。比如只有一个鸡蛋时候,只能从第 1 层开始逐个往上扔,也就是最多只能测试出 $ n $ 层。我们有以下迭代关系:
$$ f(n,k) = f(n-1,k-1) + f(n-1,k) + 1, $$
起始条件: $ f(0,k) = f(n,0) = 0 $ ;
假设我们从最佳楼层开始扔,如果鸡蛋碎了,则等价于我们最多只能测试该楼层下面的 $ f(n-1,k-1) $ ;如果没有碎,则该楼层等价于开始楼层,我们还可以测试上面的 $ f(n-1,k) $ 。而且容易知道 $ f(n-1,k-1) + 1 $ 即为每次测试应该选择的最佳楼层。
另外也可以 $ k $ 个鸡蛋测出 $ m $ 层需要次数:
$$ dp[m][k] = \min(dp[m][k], \max(dp[j-1][k-1], dp[m-j][k]) + 1) \quad (1 \leq j \leq m). $$
这里初始化 $ dp[m][k]=m $
假设在 $ j $ 层测试,如果鸡蛋碎掉:接下来就要用 $ k-1 $ 个鸡蛋来测 $ j-1 $ 层;鸡蛋没碎:接下来还可以用 $ k $ 个鸡蛋来 $ m-j $ 层。我们要取最坏的情况
- (H) professor and umbellar: 教授有 $ n $ 把伞用于来回办公室和家之间,下雨就会带伞;不下雨就不会带伞。求一开始 $ n $ 把伞都在家里,直到最后教授从家里出发淋雨(家里没有伞)的步数期望?下雨概率为 $ p $ 。
解答: $ H(k) $ 代表从家出发且有 $ k $ 把伞; $ O(k) $ 代表从办公室出发且有 $ k $ 把伞。则我们有马尔可夫状态链:
终止状态 $ S $ 是被淋湿(可能从 $ H(0) $ 或者 $ O(0) $ )。从 $ H(1) $ 到 $ O(1) $ 之间的状态到达 $ S $ 则必须要经过 $ O(n) $ 或者 $ H(n) $ 。
a: 从 $ H(1) $ 出发到达 $ O(n) $ 或者 $ H(n) $ 的期望步数;
b: 从 $ O(n) $ 出发到达 $ S $ 的期望步数;
c: 从 $ H(0) $ 出发到达 $ S $ 的期望步数即最终答案。
对 $ c $ , $ b $ 建立一步方程:
$$ b = 1 + (1-p)c \quad [到达 H(0)] + p(a+b) \quad [到达 H(1), 先从 H(1) 回到 O(n) 或者 H(n), 再从 O(n) 或者 H(n) 到达 S。这里用到了对称性, 从 O(n) 或者 H(n) 到达 S 都是 b] $$
$$ c = 1*p \quad [到达 O(n) 且 下雨] + (1-p)(1+b) \quad [到达 O(n) 但 没 下雨, 则 要 从 O(n) 到达 S] = 1 + (1-p)b $$
a 的计算:可以把 O(n) 和 H(n) 当做终止状态,用期望公式和对称性计算 $ a = \frac{n-1}{p} $
$ c = \frac{1-p+n}{p(1-p)} $ .
尤其特殊情况 $ n=1 $ 时, $ a=0 $ .
https://ocw.mit.edu/courses/mathematics/18-445-introduction-to-stochastic-processes-spring-2015/assignments/MIT18_445S15_homework3_sol.pdf
- N 个点随机放在一个圆上,求都在同半边的概率。等价的:
(1) 圆内在同一边的概率。只与夹角有关,所以可以投射到圆上
(2) 这些点构成的多边形不包含圆心。
解答:固定一个点 i 剩下 N-1 个点都在 i 的顺时针半圆内,这 N 个事件是互斥的。所以概率等于:
$ N \times 0.5^{N-1} $
- (H) 更一般的 N 个点在 d 维球面 ( $ S^{d-1} $ ) 在同一半球面的概率:
(1) d 维球面上 d 个点决定一个半球面: 过原点( 球心) d-1 个点决定一个超平面,再 1 个点决定超平面符号。也就是说如果 $ N \leq d $ 则概率是 1
(2) 原问题等价于:固定 N 条直径(对应 N 个分离超平面),每条直径选一个端点,这 N 个端点在一个半球的概率。这里相当于条件概率在均匀分布上(随机选 N 条直径)。这里 N 条直径可以当做一般位置即超平面最大相交(比如平面上考虑 N 条直线最大相交情形),退化的情形测度为 0
(3) 一共有 $ 2^N $ 种选法,而在同一个半球的情形与 N 个超平面把球面分割的块数 $ f(N, d) $ 一一对应,所以关键是求 $ f(N, d) $ .
(4) 迭代关系 $ f(N, d) = f(N-1, d) + f(N-1, d-1) $ : d 维球面分割的块数与球体被分割的块数一一对应(过圆心);加 1 个超平面,球体多出来的块等价于这个超平面被被 N-1 个超平面分割开的块数。
(5) $ f(N, d) = 2 \times \sum_{i=0}^{d-1} \binom{N-1}{i} $
特别的当 $ N \leq d $ 时, $ f(N, d) = 2^N $
(6) 最后我们有概率:
$ P(N, d) = \frac{1}{2^{N-1}} \sum_{i=0}^{d-1} \binom{N-1}{i} $
利用组合数: $ \binom{N}{i} = \binom{N-1}{i} + \binom{N-1}{i-1} $ ,我们有
$ P(N, 3) = \frac{1}{2^{N-1}} \left( \binom{N}{0} + \binom{N}{2} \right) $
$ P(N, 4) = \frac{1}{2^{N-1}} \left( \binom{N}{1} + \binom{N}{3} \right) $
$ P(N, 5) = \frac{1}{2^{N-1}} \left( \binom{N}{0} + \binom{N}{2} + \binom{N}{4} \right) $
同时我们可以看到 $ P(N, d) $ 是 $ N-1 $ 次二项分布 $ \leq d $ 的概率,所以当 $ N $ 很大时可以近似成 $ (\mu = \frac{N}{2}, \sigma^2 = N/4) $ 的正态分布
http://pages.physics.cornell.edu/~velser/HW/hw1soln.pdf
- 球面产生均匀点:
( 1) 立方体内只接受球内点, 然后投射到球面上。注意到经纬度均匀分布并不能得出球面上均匀点, 赤道肯定比两极密度大( 看角度增量) 。所以纬度 $ \theta $ 对应的pdf就是对应的带宽微分:
$ \theta \cdot \sin \theta \, d\theta, $
所以二维球面上均匀两点角度的期望为
$ E[\theta] = \frac{\int_0^\pi \theta \cdot \sin \theta \, d\theta}{\int_0^\pi \sin \theta \, d\theta} = \frac{\pi}{2} $
( 2) $ X_i \sim N(0,1), Y = \frac{X}{||X||} $ 是球面上的均匀分布。证明:球面均匀分布=单位向量+正交变换分布不变: $ X \sim N(0, I_n) $ ,任意正交变换 $ Q $ 都有 $ QX \sim N(0, I_n)Q \Rightarrow QY $ 分布不变
https://stats.stackexchange.com/questions/7977/how-to-generate-uniformly-distributed-points-on-the-surface-of-the-3-d-unit-sphe
也可以用圆面积积分
$ E[f(X)] = c \int_{S_{n-1}} f(u)\sigma_{n-1} \, (du) $
当 $ f $ 取indictor时候, 就是说明概率与面积成正比, 所以还是均匀分布。
https://math.stackexchange.com/questions/1864519/normalized-vector-of-gaussian-variables-is-uniformly-distributed-on-the-sphere
边际分布推导:
$ X_1 = \frac{Z_1}{\sqrt{Z_1^2 + Z_2^2 + Z_3^2}} $
$ 1 - \frac{1}{X_1^2} = \frac{Z_2^2 + Z_3^2}{Z_1^2} \sim 2F_{2,1} $
所以是一个 F 分布的函数
球面上均匀分布算 $ \text{Var}[X] $ :正负对称性 $ E[X] = 0 $ ; $ E[X^2] + E[Y^2] + E[Z^2] = R^2 \Rightarrow E[X^2] = R^2/3 $
- (R) 德国坦克问题: 观察到序列号2,6,7,14 求坦克总数估计?
关键点: 1到N取k个, 最大数是m的概率。注意这里随机变量只有m:
$$ P(M = m) = \frac{C_{m-1}^{k-1}}{C_N^k} \Rightarrow E[M] = \mu = \frac{k(N + 1)}{k + 1} \Rightarrow N = \mu \left(1 + \frac{1}{k}\right) - 1 $$
因此 $ \bar{N} = m \left(1 + \frac{1}{k}\right) - 1 $ 是 N 的一个无偏估计。
这是频数学派的观点, 贝叶斯学派就会认为K和N都是随机的, 我们要估计的是
$$ (N|M, K) = (M|N, K) \ast (N|K)/(M|K) = (M|N, K) \ast (N|K) / \sum_N (M|N, K)(N/K) $$
这里 $ (M|N, K) $ 就是上面的表达式,我们会假设 $ (N|K) $ 是 $ [K, U] $ 上的均匀分布
- (H) ABC依次抽对方名字, 中途抽到自己放回去再抽, 最后一个人抽到自己无效从来。
解: AB指A抽到B
虽然具体概率不知道,但最后只有 CA或者CB, 且 CA:CB=1:2. 所以CB的概率为2/3
- 通过自行车前后轮轨迹判断自行车前进方向。
解: 后轮切线永远指向前轮, 连线长度一致; 指向与后轮切线夹角大于90度的方向就是自行车前进方向。如图, 前进方向就是从右到左。
- 如图桌角四个硬币,你被蒙上眼睛。每轮你可以指定桌角的硬币翻动,只要出现所有硬币朝向一样你就赢。每轮结束,为了不让你赢,庄家会转动桌子。求稳赢策略以及最多的轮数?
解: D记为翻动(0,2); A记为翻动(0,1); I记为翻动(0)。DADIDAD 7步之内就会出现全部一样的结果。
则DAD对于(2H2T)已经赢; 对于(3H1T/3T1H)不改变。
所以I使得(3H1T/3T1H)变为(2H2T).
### 新题目
Citadel
- 丢两个100面dice的product来决定S, 然后price一个9700的call
$ E[(x1*x2-9700)^+] = 0.1005 $ 枚举大于9700 dice对一共8组。
- 我给你一百张空白卡片,每张可写上 1~5 中任意一个正整数,你可以在每张卡片上写一个正整数。
你写完后我会看卡片,然后洗牌。我猜牌堆最上面的一张牌,如果我猜对了,我就得到卡片上写的美元。你应该在卡片上写什么数字才能使我的预期回报最小化?
https://math.stackexchange.com/questions/2827764/100-blank-cards-minimize-the-ev
尽量让所有数字的期望收益接近,也就是i*x_i接近。得到: 44,22,14,11,9
- 我们有n次独立重复试验,每次试验成功的概率是Ber(1/n)分布,问概率P[>=1 successes]和条件期望E[# of successes | >=1 successes]
定义X=# of successes ,pi=P[X=i]。第一问=1-p0;
第二问=p1/(1-p0)+…+pn/(1-p0)=(1p1+…+npn+0p0)/(1-p0)=E(X)/(1-p0)。
- 几何上解释Ax=b 0个解/唯一解/无穷多解的含义
0个解: b不在相空间
1个解: b在相空间且ker空间为0
无穷个解: b在相空间且ker空间不为0
- 一个LRU, 每次访问之后元素会被放到最前面。假设有n个元素,每个元素被访问到的概率为Pi, 求
某次访问的元素所在位置的期望
元素 $ i $ 的平均排名 $ = 1 + \sum_{j \neq i} P(j \text{在} i \text{前}) = 1 + \sum_{j \neq i} p_j / (p_i + p_j) $
答案 $ = \sum (\text{元素} i \text{的平均排名}) p_i $
- 一个程序员随机敲击键盘,直到得到 citadel 这个词,问期望步数?之前从没有出现单词 securities 条件下的期望步数
第一问 $ 26^7 $ ,因为 citadel 非自重叠;
第二问,定义 $ T_c = \text{第一次出现单词 “citadel” 的位置} $ , $ T_s = \text{第一次出现单词 “securities” 的位置} $ 。
1 两单词互不重叠; 2 “securities” 出现得极慢。设 $ A = \{T_c < T_s \} $ , 则 $ E [ T_c \mid A ] = E [ T_c ] + \text { Cov }( T_c , 1_A ) / P ( A ) = 26 ^ 7 \cdot ( 1 + O ( 10 ^{ -5 })) $ 。 几乎与第一问一样 。
- 两个 scale, 来称我的体重, 只有两个数据的情况下 如何得到相对可靠的 weight, 让我自己设定假设。
我是设定了两个 scale 的标准差分别为 $ \sigma_1, \sigma_2 $ ,假设每个 scale 称出来的体重服从正态,用极大似然估计得到估计值
- $ x, y, z $ 服从 iid $ u(0, 1) $ ,求 $ P(\max x, y, z < 0.5 \mid x + y + z = 1) $
解答: $ z = 1 - x - y $ 转换为平面上的面积
- $ M $ 张牌可重复抽 $ n $ 次,抽到不同牌的数量的期望
定义指示变量若第 $ i $ 张牌在这 $ n $ 次抽牌中至少出现过一次,答案为 $ M \left(1 - \left(1 - \frac{1}{M}\right)^n\right) $
- 从一个随机发生器(分布未知)中独立产生了一系列数,如果新产生的数非递增则停止,求停止时已经产生的数个数的期望
类似 notes 上的题目计算 $ p(x_1 < \ldots < x_k ) $ 然后用期望求和公式 。
- 圆环上以概率 $ p $ 随机游走,遍历所有位置则停止,求 stopping time 的期望
Book Markov Chains on graphs, S. Ross Stochastic Processes (第 2 版), D. Aldous & J. Fill Reversible Markov Chains and Random Walks on Graphs
$ P $ 不等于 $ 0.5 $ : $ E[\tau] = n / |2p - 1| $
$ P $ 等于 $ 0.5 $ : $ E[\tau] = (1/\pi^2) n^2 \ln n + O(n^2) $ ( Aldous & Fill, Dembo– Peres– Zeitouni 等)
- $ X, Y, Z \sim U(0,1), \text{iid} $ ,求 $ X + Y, (X + Y + Z)/3 $ 的分布。趋近于无穷大 mean 时会怎么样
Irwin– Hall 分布,分别为分段 1 次、2 次多项式;趋近于无穷大 normal distribution
$ X \sim U[0,1], Y \sim [0,2] $ 独立,问 $ Z = X + Y $ 的 pdf
可用卷积法计算, pdf 为一分段线性函数
- 从点 $ (0,0) $ 开始,每步以相同的概率向上或向右走 1 个单位,求你能经过点 $ (N,N) $ 的概率。
provide a base case the prob relationship will be enough. 没懂,递归的意思吗
前 2N 步中恰好有 N 步向上、N 步向右,得到 $ C(2N,N)/2^2N $
- 我们有 1 枚不公平的硬币和 999 枚公平的硬币,选择了一枚硬币并观察到 5 次正面。我们需要计算这枚硬币是公平的概率。
和 green book 很像。然后有一个 followup
$ P(F|H5) = \frac{P(H5|F) \times P(F)}{P(H5|F) \times P(F) + P(H5|U) \times P(U)} $
- 折断一根棍子,然后折断较长的那一段,形成三角形的概率是多少
第一次在点 U 处断开 U ≤ 1/2, 第二次在较长的段上点 V 处断开 [0,1-U] 上均匀分布。三角区域/总区域 = 1/3
Pirate's Gold Problem 海盗分金,一群按等级排序的海盗分配金币,船长提出方案全员投票,若获半数支持则通过,否则船长被处死由下一位继任;所有海盗优先生存,其次追求最多金币,且绝对理性。
- 海盗分金问题采用逆向归纳法解决:从只有一个海盗开始分析,然后逐步增加海盗数量,每次分析船长需要获得半数及以上支持才能生存,而船长的最优策略是以最小代价贿赂那些在下一轮分配方案中得不到金币的海盗来获取支持;对于 5 个海盗的经典情形, 通过分析发现, 如果被否决, 2 号海盗会得到 99 金币, 3 号得 0, 4 号得 1, 5 号得 0, 因此船长( 1 号)只需给 3 号和 5 号各 1 金币换取他们支持,自己保留 98 金币,最终方案 (98,0,1,0,1) 能获得所需的多数票支持。
- n 个人每个人写 1 - 100, 谁猜得更接近平均值的 2/3 谁就赢。求策略
随机猜测的平均值约为 50.5,其 2/3 是 33.7;如果所有人都想到这点,则新的 2/3 平均值为 22.4;再次迭代后变为 15, 然后是 10, 然后是 6.7...;理论上最终均衡点是所有人选 1( 最小可选数字) 。
在实际游戏中,人们很少进行超过 2-3 轮迭代思考。最佳实战数字通常在 10-15 之间,既考虑了理论分析,又兼顾了人类实际的有限理性特性。
- max: $ x^t A x $
最大值是( 对称情况下) A 的最大特征值, x 在该最大特征值的特征子空间内。
若 A 不对称,则将其对称部分 A+A^T
- uniform distribution, how to sample from solid disk
极坐标,半径需要开根号
- A, B 两人玩游戏,各下注 1, 各从 U(0,100) 中抽一个数, 最终数大者获得池中全部筹码。A 先决策,可以选择 check 或加注 2; B 随后行动,如果 A check 了 B 也只能 check, 如果 A 加注则 B 可以选择 fold 或跟注 2。问 B 的策略
假设 A 的策略是在数字大于某个阈值 t 时加注,否则 check。以下是 B 的最优应对策略:
如果 A 选择加注,且 B 的数字 $ b > (100+2t)/3 $ ,则 B 应跟注;
如果 A 选择加注,且 B 的数字 $ b \leq (100+2t)/3 $ ,则 B 应弃牌。
- 9 个人站成一个圆圈,每个人随机向 3 个不同的人挥手,且每个人不能向自己挥手。求互相挥手的两个人的期望数量。
定义指示变量若 i 与 j 互相挥手, $ 36 \times 3/8 \times 3/8 $
- 6 个人站成一个圆圈,求两旁的两个人都比你矮的概率。
若只看你和左右两邻,共 3 个人的高度两两不同,那么你成为这 3 人之中最高者的概率是三分之一。
- 在有 6 个人围成一圈的情况下,最矮的人站在最高的人旁边,至少有一个邻居比他矮的人数期望?
假设我们将最矮的人放在位置 1, 最高的人放在位置 2。其余四人随机分布在位置 3-6。每个人有 $ 1/4 $ 的概率站在位置 6。其余三个位置上, 每个人有期望 $ 1/3 $ 的第二矮邻居。可遍历 24 种可能。答为 $ 23/6 $
- 掷一个 100 面的骰子 3 次,最小值的期望和方差是多少
期望:用期望求和公式 $ \sum p(\geq k) = \sum (1-(k-1)/100)^3 $
方差:利用二阶矩求和公式 $ \sum (2k-1)p(\geq k) $
- 有 7 个红球和 8 个蓝球,抽取球直到剩下 2 个球。求剩下的两个球是同色的概率。
等价于从 15 个球里选 2 个都为同色
- 已知 x 和 y 是相关的,求 $ \text{minimize variance} (ax+by) $ constrained by $ a+b=1 $
转化为一个二次多项式最小值问题
( 1) 最优系数
$$ a^* = \frac{\sigma_Y^2 - \text{Cov}(X,Y)}{\sigma_X^2 + \sigma_Y^2 - 2 \text{Cov}(X,Y)}, $$
$$ b^* = 1 - a^* = \frac{\sigma_X^2 - \text{Cov}(X,Y)}{\sigma_X^2 + \sigma_Y^2 - 2 \text{Cov}(X,Y)}. $$
( 2) 最小方差
$$ \min_{a+b=1} \text{Var}(aX + bY) = \frac{\sigma_X^2 \sigma_Y^2 - [\text{Cov}(X,Y)]^2}{\sigma_X^2 + \sigma_Y^2 - 2 \text{Cov}(X,Y)} = \frac{\sigma_X^2 \sigma_Y^2 (1-\rho^2)}{\sigma_X^2 + \sigma_Y^2 - 2 \rho \sigma_X \sigma_Y}. $$
- 已知 x 由一个 unit circle 生成,问 x-axis 的 cdf
直接计算 $ P(X \leq t) $ ,结果包含有 $ \text{acos} $ 函数 $ 1 - \text{arccos}(t)/\pi $
- 假如随机向量 $ X_1, \ldots, X_n $ 各自期望为 0, 方差是 1, 两两的 covariance 都是 $ r $ ,求 $ r $ 的范围。求出 $ r $ 的范围之后,又问了能不能取到端点值,给个对应的 $ X_1, \ldots, X_n $ 的例子。
这题应该用到了这 $ n $ 个随机变量的协方差矩阵的半正定性。 $ [-1/(n-1), 1] $
$ r=1 $ : 令所有 $ X_i $ 彼此完全相同且方差为 1。
$ r=-1/(n-1) $ : 令 $ \sum X_i = 0 $ 且每个 $ X_i $ 的方差都为 1, $ x_i=zi-mean(zi) $ , $ zi $ iid $ N(0,1) $
- 假如 $ X,Y $ 都是 standard Gaussian, 那么 $ X+Y $ 也是 Gaussian 吗? $ X, Y $ 的不相关性和独立性有什么关系, $ X,Y $ 服从二维 Gaussian 的话肯定是等价的,但是一般情况下不一定
不一定是高斯有反例。令 $ Z \sim N(0,1) $ 。令 S 取 $ \pm 1 $ 均匀,且与 Z 独立。 定义 X = Z, Y = SZ。
- 概率: $ X, Y \sim N(0,1) $ ,算 $ X+Y $ 的 std 范围
$ 2+2\text{Cov}(X,Y) $ ,可在 $ [0,2] $ 之间任意取值。
- 你有两个 6 个面的骰子 一起抛得到两个点数这两个点数乘起来是几你就得几刀,求收益的期望。
这题比较简单 显然 $ 3.5 \times 3.5 = 12.25 $
- (H) 现在给你一次机会 可以重新抛其中一个骰子(你也可以选择不抛) 你的策略是什么。
- 如果任一骰子点数小于 3.5(即点数为 1、2 或 3) , 重抛点数较小的骰子; 否则不重抛。使用此策略, 最终期望收益约为 17.21?
别人的答案,我说如果两个数都大于 3.5 就不抛了 这种情况的概率是 $ 1/4 $ 平均是得 $ 5 \times 5 = 25 $ 刀。如果其中一个大于 3.5 一个小于 3.5 就重新抛小的 这种情况的概率是 $ 1/2 $ 平均得 $ 5 \times 3.5 = 17.5 $ 刀。如果两个都小于 3.5 这种情况概率是 $ 1/4 $ 平均得 $ 2 \times 3.5 = 7 $ 刀。最后答案是 $ (1/4)(25) + (1/2)(17.5) + (1/5)(7) = 16.4 $ 。
你对你的答案有多自信嘛 (我说挺自信的) 他说 那给你如果有一个 2 一个 3 你会重新投哪个?那肯定是投小的 然后我重新算了一下 算错数了
- 你有 7 个硬币 抛完之后得到一个长度为 7 的由 H 和 T 组成的 sequence 对于 sequence 中的每个连续的 3 个硬币 如果全是 H 那你得一刀 比如说如果是 HHHHHHH 的话 你一共得 5 刀 求期望。
5 个三元组, $ 5 \times (1/2)^3 = 5/8 $ 。
- 如果你可以把 HHH 换成别的(比如说 HTH) 你会换成什么。
没区别,面试官让我严格解释一下。
- 如果你对这个结果不满意 给你一次重新 flip 所有硬币的机会 你的策略是什么。
我说期望 $ 0.625 < 1 $ , 如果有钱拿就不 flip 了 一刀没得到就 flip 。
- 给一个 90% interval 估计这个新版本游戏的 fair price。
$ E=p0 \times 0.625 + (1-p0) \times (0.625/(1-p0)) = 0.625(1+p0), p0= $ 得 0 元的概率
- make a market for the game / 跟面试官模拟交易三轮 / 重新 guess the fair price。
- 求 fair price.
- 根据之前的计算 再给个 confidence interval. 我说 [1, 1.2]
- 求解 700 平方根的 90% 置信区间
confidence interval 定义?[2,3] 区间二分法 2.75,证明误差小于 10%
- (H) 两个玩家进入一个游戏,每人支付 10 美元。他们从 0 到 100 随机抽取一个数字。数字较大的玩家赢得整个奖池。
如果你有一次重新抽取的机会,你愿意为这个机会支付多少价格?
如果你有一次重新抽取的机会,并且如果你选择重新抽取,你的对手将获得你之前抽到的数字,你愿意支付多少价格?
如果你可以看到对手的卡片并选择是否重新抽取,你愿意支付多少价格?
算二重积分或三重积分。前两个问题是否是可选择的?第三问策略为小于对手的时候抽 2/3 概率赢。
- 一个公平的六面骰子。预期掷出第一个 6 的次数是多少?/掷出所有数字的次数是多少?
(H) 掷出所有数字两次的次数是多少?(range)
6 次; Coupon 6 × 2.45;
? E[X] = 6 × 2.45 × 2
- 掷一个骰子,期望值的总和,直到看到从 1 到 6 的所有不同值。
期望步数*3.5
- 在一场网球比赛中,你每局胜率为 75%,我每局胜率为 25%。你最终获胜的概率是多少?(range)
单盘制:获胜概率就是 75%
三盘两胜制:
2-0 获胜: P(连赢两盘)
2-1 获胜: P(赢-输-赢或输-赢-赢)
总概率≈94%
五盘三胜制: 获胜概率≈98%
- Notes: 一位教授有 n 把雨伞,他在家和办公室之间来往,每次来往下雨的概率是 p。如果下雨了他就会拿一把伞出门。如果所在位置没有伞了就会淋湿。教授淋湿的概率? follow up: 教授淋湿之前来往次数的期望值。
- 对于给定的数字 x, 你可以进行以下两项运算:
如果为偶数,则可使 x = x/2;
如果为奇数,则可使 x = 3x-1;
如果在进行这两项运算(次数不限)后,数字能够收敛到 1, 则该数字收敛。
考拉兹猜想,还未被证明,计算机验证很大的数都成立
抽彩票, 10个人里只有1个赢家, 赢家获得100 $ 。已知前八个人都没赢, 你是第九个人, 同时你有一个机会, 可和最后一个人换彩票( 这样做需要额外费1 $ ),求你的预计最佳策略收益的期望。
不换彩票换不换都一样,除了多付一元
- 1/5做事件A, 3/20做事件B, 3/25两件事都做, 求多少比例做至少一件事。
容斥原理
- 蓝眼睛占3/10, 黑头发占3/5。已知在是蓝眼睛的情况下是黑头发的概率是2/5, 求在已知不是黑头发的情况下蓝眼睛的概率。
蓝眼睛的比例P(B), 黑头发的比例P(H), 直接用概率公式计算P(B|H^c)
- 已知4位单打运动员, 4位双打运动员, 要选拔2位单打, 一组双打, 求多少种挑选组合。
单打选拔 * 双打选拔=6 * 6 = 36种
- $Min_A \sum_i (x_i-A)^2 , Min_A \sum_i |x_i-A|$ ,为什么?
均值和中位数
- p和beta两个n维向量 求离p最近且垂直于beta的向量
投影
- Notes: fair coin 连续抛出三个正面的期望, follow up: 计算n个正面的期望。
- Given Corr(Y, X1) > 0, Corr(Y, X2) = 0, Corr(X1, X2) > 0. 考虑下面两个回归任务, a or b1哪个大
Y = a X1 + epsi
Y = b1 X1 + b2 X2 + epsi
- 题目变形: cov(x1,y) != 0; 求|a| 和 |b1| 绝对值比大小。
好像要用到 设y=cx2 + e, c>0, 以及 sd(x), sd(y)>0的这些条件
直接计算a、b1, 用所有cov(,)表达可以得到不等式, 需要除以消去cov(y,x1)
- Define stationarity in time series analysis. Why is it important?
均值恒定、方差恒定、自协方差仅依赖时间间隔。简化模型假设、便于参数估计、预测更准确。
- 开放性问题:对某些罕见事件的概率进行贝叶斯建模。你的先验概率是多少?参数化的发射概率是多少?如何推导出后验概率?
Beta分布为参数p先验, 发生次数为二项分布 Binomial(n, p), 后验更新: Beta(α +k, β+n-k), 其中观测: k 次成功, n-k 次失败。
在没有额外知识时,可用 Jeffreys 先验 Beta(½, ½)。
若已知事件大概是“万分之一”量级,可取 $ \alpha = 1, \beta = 10000 \rightarrow \text{prior mean } 1 \times 10^{-4} $ 。
如需弱化先验影响,可把 $ \alpha, \beta $ 同时缩小
- 从1到10的数列, 随机选择三个, 要求他们两两不相邻, 问概率是多少
至少有一对相邻的概率可用容斥原理计算。1-8/15
- 做一个游戏, 给n个随机变量, $ x_1, x_2, \ldots, x_n $ i.i.d., $ U(0, 1) $ 。依次猜测每个 $ x_i $ 在n个变量中的大小排名( 从 $ x_1 $ 到 $ x_n $ ) , 如果全部猜对则获得胜利。问你的best strategy和采用这种strategy取胜的概率。
等概率都为 $ n! $
- Notes: how to use biased coin to play a fair game。worse case numer of tosses最小的办法。
- 获取在线平均值和标准差
Welford算法:
$$ S_n = \sqrt{(n - 1) \cdot S_{n-1}^2 + (x_n - M_{n-1})(x_n - M_n)} / n - 1 $$
- 1000 coins, 1 bad coin (HH), flip 10 H in a roll, what’ s the probability of getting the bad coin? Follow-up: what about 9 heads? What’ s a good number of heads that you become confident? followup问了一些intuitive的解释。
使用贝叶斯定理
- hackerrank题, 1000枚硬币有1个两面正, 100枚硬币至少60次正的概率, 以及所在的分布的sigma距离
- 100 coin flips, 60个朝上就赢, 问期望
选100投吗, 有放回的投吗? 二项分布 $ B(100, 0.5) $ 近似正态分布, sigma距离= $ (60-50)/5=2sigma $ 。
大概率题意: 等概率抽出100枚( 不放回) , 然后各掷1次。记 $ X $ 这100次掷硬币得到的正面的总数。
把“得到60次正面”当成一次观测值, 它距离该分布均值 $ \mu $ 相差多少个标准差 $ \sigma $ (即 z-score) 。
- Math: $ P(X) = a_0 + a_1 \cdot X + \ldots + a_n \cdot X^n $ 。计算这个公式的算法复杂度是多少?如何改进它?
霍纳法则( Horner’ s Rule) 从 $ o(n^2) $ 到 $ o(n) $
- CV questions (multi-armed bandit. Mean-field game theory, etc…)
- 抛一枚公平硬币三次,正面比反面多的概率是多少
对称的1/2
- Notes: Suppose there are 10 lions and meat. If one of the lions eats the meat, she falls asleep. While she is sleeping, any other lion can eat her and also fall asleep. And so on. The question is, what will happen at the beginning? Will any lion eat the meat?
没有狮子会吃肉
- Notes: Super Egg Drop (one egg, two eggs, infinite egg cases)
- 你有两盒巧克力,分别包含 m 和 n 个巧克力。两名玩家轮流从任意一盒中取走任意数量的巧克力(至少取一个)。谁吃最后一块巧克力就会获胜。
(make 2 boxes contain equal chocolates, i.e., (m, n) -> (n, n))
- X~N(0, 1), Y~N(0, 4), 抛一枚公平硬币,若正面朝上则 Z = X, 否则 Z = Y。Z 的概率密度函数和累积分布函数是多少?
混合高斯分布
- 假设有一个 Ber(p) 的硬币, p 等于多少的时候可以使得第五次扔硬币才连续两次扔出 HT 的概率最大。
题目意思是 XXXHT 还是 XHTHT? 都是 p=1/2
- 一个学校,有很多课程但是人数不一样。然后假设下课所有人一起出来,可以 random 选取一些同学问你的课上有多少学生(但是不能问是哪个课),问能不能给出一个课程平均人数的估计。
人多的课抽样出来的人多
- 玩家和庄家各自抽取牌,超过 13 的爆成 0, 你的值比庄家大才赢, 你需要写一个函数判断你当前要不要继续抽牌。
计算继续抽赢输的概率 13*13 种可能
- X 是一个 100 面的骰子, 分数是面值的和。Y 是 600 个硬币,分数是正面朝上的硬币数。求 P(X < Y )? P ( X < Y ) 是否小于 1 %?
Actual computation was not the focus, asked in depth the CLT and the LLN.
- Notes: 掷骰子,求第一次出现 1 的时候, 所有出现过的面值之和的期望。follow up: 问题换成 6, 或者换成其他数字, 答案是否改变。这题不难, follow up 给面试官讲一下 insight 可能会比较好
- 扔骰子,之前地里的文件有,大概是扔到 1 和扔到 6 的期望是相同的,证明一下
- Notes: 我扔 10 次 fair coin 你扔 9 次,我 head 比你多的概率 1/2, 经典题。follow up: 如果改成我扔 11 次你仍 9 次,答案是否不变?扔 11 次的话之前的做法就不成立了,答案会变。你扔 51 次硬币,我扔 50 次, 你正面比我多概率? 0.5
- Notes: (1): If you have a fair coin, flip it 10 times, what's the probability that you get even number of heads, and the probability that you get odd number of heads
- Notes: (2): If you flip a coin (which you don't know if it's fair or not). Now, you know that the probability of getting odd and even number of heads are equal. Will this conclude the coin is fair
- 你有10枚不同的硬币, 每枚硬币正面朝上的概率可能不同。既然你知道掷出奇数枚和偶数枚正面朝上的概率相等, 这是否意味着其中至少有一枚是公平的?
不一定, 考虑两个硬币概率0, 1。必然一次正=一次负
- 你遇到一个随机的人。你猜测他给定的数字是什么, 数字是在0到999之间。这个人的名字是Bob, 他有两个方法: query和answer。
Bob随机生成一个数字给Alex猜测这个数字。
Alex在第一次猜测时, Bob的query方法总是返回"First"。
在第二次及之后的猜测中, query方法会告诉Alex: 这次猜测比上次猜测离正确答案更近、远, 或者相等。
Alex可以在任何时候调用answer方法, 并返回他猜测正确答案所花费的总猜测次数。如果猜对了游戏结束, 如果猜错了, 则继续猜测。实现Bob的所有方法, 这个比较简单, 要尽快完成实现Alex的方法, 她的最优策略是什么? lz是在这一部分卡了一下
顺序头尾中,二分法
- Toss抛一枚公平硬币10次, 出现偶数次正面的概率和出现奇数次正面的概率相等吗? 反过来, 如果我们知道这两个概率相等, 这枚硬币还是公平的吗?
充分且必要条件。奇偶期望个数差=(1-2p)^n
- 袋子里有10枚硬币, 包括3枚1美分硬币、1枚5美分硬币、4枚10美分硬币和2枚25美分硬币( 3 pennies, 1 nickel, 4 dimes, 2 quarters) 。如果你一次取出3枚硬币, 有放回的更好还是无放回的更好?
There is no difference because they have the same expected value. In the case of without replacement, drawing 3 coins one at a time is the same as drawing 3 coins together and then assigning the order to each coin, so E(X1)=E(X2)=E(X3)=Expected value of each coin with replacement. 这个答案正确吗?
有放回: 0.294
无放回:一般来说,有放回抽取的期望值会更高?
- 100 basketball throws, 1st one missed, 90 successful. Is it possible that at no point during the 100 throws 80% of the throws were successful?
不可能。在第5次投掷时, 投掷失败次数X必须至少为2。在第10次投掷时, X>=3, 依此类推。
在第N次投掷时, X>=N/5+1。由于我们知道X最多为10, 因此在第50次投掷后, 这种情况将不再成立。
Kernel realized volatility 如何选窗口,不同的窗口大小 h 效果如何
- Kernel Realized Volatility 是计算高频数据波动率的非参数方法。核心思想是使用核函数对数据进行平滑处理,避免噪声影响。
- Xu: option 的 gamma 和 Vega
- Xu: Finance / Trading (all open-ended questions)
(1) When you execute trades for 2 stocks, what if one gets filled already but the other one can't get filled?
(2) Potential issues with estimating correlation using high frequency data
(3) Given a set of risk factors, how to neutralize your alpha against those factors?
(4) Portfolio optimization: how to avoid breaking cross-section neutrality
- Xu: Why American Options never executed before expired? 他说是个很实战的问题
- 布朗运动是什么,有哪些基本假设。布朗运动的联合概率分布是多少?
布朗运动是一个具有独立增量、正态分布特征和连续性的随机过程。
初始条件 0 的位置为零;独立增量;增量服从正态分布;连续性。
联合分布是正态分布向量,均值为 0, 方差 $ \sigma_{ij} = \min(t_i, t_j) $
Squarepoint
- 牛顿法计算给定精度(例如,精度为 6) 的平方根。follow up: 其他实现方式
牛顿法利用函数的局部线性逼近,通过反复迭代,逐步逼近期望的平方根值;
二分查找法,泰勒展开法。
- 两条平行线上随机标记 1 到 n。如果将相同数量的标记连接在一起, 预期交叉的数量。
总对的数量 * 交叉的概率 = $ n(n-1)/4 $
- 从单位正方形中随机取四个点, AB 和 CD 相交的概率。
如果直线相交, 1/3; 如果线段相交考虑非凸四边形。疑问?
- 对 10000 次二元结果进行假设检验。
类似 mm 豆, 0 假设成功率 p 等于某个特定值
- Xu: 莱克-肖尔兹模型,假设条件,买权卖权平价,执行价格为 $ K=S+K_0 $ 的买权与执行价格为 $ K=S-K_0 $ 的卖权价格之间的关系。
- 两根绳子,每根绳子在被点燃时会以不均匀的速度燃烧,从一端燃烧到另一端需要 60 分。目标是
使用这两根绳子,准确测量出 45 分钟的时间。
第一步: 点燃第一根绳子两端( 30 分钟后燃烧完)。
第二步: 同时点燃第二根绳子一端( 30 分钟后)。
第三步:等第一步烧完后再次点燃第二根绳子另一端(再经过 15 分钟)。
- Brain teasers: colored beads (isotope technique)
没找到?假设你有 10 颗珠子,其中包括 5 颗红色珠子和 5 颗蓝色珠子。
- 给定 uniform(0, 1) 的生成器,生成出一对随机变量 x, y, 都服从概率为 p 的 Bernoulli 分布而且 corr(x, y) 给定。
我的方法一:计算联合分布,为 4 元离散分布
大模型的方法二:
```python
if X == 1:
# 如果 X=1, 提高 Y=1 的概率
Y = 1 if U2 < min ( 1 , p + rho * np.sqrt(p * ( 1-p ))) else 0
else:
# 如果 X=0, 降低 Y=1 的概率
Y = 1 if U2 < max ( 0 , p - rho * np.sqrt(p * ( 1-p ))) else 0
```
- 一枚 coin generate 2/3。
flip twice 舍取其中一个情况
- Notes: unfair coin to make fair game, follow up 如果 p=0.99 怎么优化。
- 事件 X 的概率为 p。事件 Y 的概率为 q。那么, 两事件都不发生的概率是多少? ( 考虑不同的独立性假设)
独立:(1-p)(1-q)
完全依赖: 1-p 或 1-q
相关也是一般公式: 1-p-q+p( x and y)
- 亚当与他的父亲和一位国际象棋大师进行交替对局,共进行三轮。顺序可能是父亲-大师-父亲或大师-父亲-大师。赢得对大师的胜利要比赢得父亲的胜利难得多。如果他需要连续赢得两轮,选择哪个顺序?
(think about different values of the winning probabilities) 直接计算概率
- Notes: proability 是绿书原题,就是有个 creature die, stay same, split two, split three 的概率都是 0.25,然后问 die out expectation。
- 证明 product of all eigenvalues of matrix $ A = \det(A) $
用特征多项式定义,令 $ \lambda = 0 $
- 有一个square matrix, 里面的elements 只有1或-1 ( 一半的概率) 。求determinant的variance。expected value=0。利用独立性对n递推
- 假设你进行了1,000,000次抛硬币的实验, 结果是出现了510,000次正面。现在我们想要计算在这个实验结果的基础上, 硬币是不公平的概率。
方法1: 假设检验0假设公平条件下, 分布近似为均值500000方差500, 10000为20个方差之外p值很小了。
方法2: 假设先验 $ p \sim \text{Beta}(\alpha_0, \beta_0) $ ,取 $ \alpha_0 = 1, \beta_0 = 1 $ (即 Uniform(0,1)), 计算得到后验均值0.510001, 方差2.5e-7非常小, 95% 对称后验可信区间(0.5090, 0.5110)
- 投掷公平硬币, EX of 'HH'
- 连续出现两次硬币上的期望步数? 6
- (H) 平均收益率为零 $ \text{mean}(r_1) = 0 $ , $ \text{product}(1 + r_i) > 1 $ or $ < 1 $ or $ = 1 $
题目问题是什么? 期望应该为1
- 一个圆周上有未知个数的相同的门,有的开有的关,你可以在圆周上任意走动,每次只能看到和操作自己当前位置的门,求策略使得能打开所有的门,并证明已经打开了所有门
第一个位置关门,然后往前走,之后每看到一个关闭的门就打开它,然后走回去到第一个位置看下门是否打开了
- Notes: 概率题+金融题, 概率题( flip a fair dice and get returns, what is the best strategy. extension是如果无限轮, 但每次要交钱, best strategy)
- 如何用一致分布拟合任何分布
蒙特卡洛,继续追问具体的
用cdf inverse, 如果没有inverse咋办
- (H) 任意lis的expectation多少, 怎么做。猜 increment bound by $ 2/n+1 $ $ 1/n+1 $ ,
hint: 从最简单case开始考虑。还是没看出来规律, 问这玩意蒙特卡洛不就看出来了吗? 没有回答
先看点数再决定付不付?还是先决定付?
- (H) 概率: 十面骰子, 选择要么pay $ 5 $ 得到 $ N $ , $ N $ 是扔的数, 要么nothing, 先求payoff
followup如果扔两次同样的condition怎么求payoff, 又问十次和一万次
- Conditional probability: compute $ P(X+Y>0|X>0) $ for $ X,Y $ and two random Gaussian variables with mean zero.
$ X \sim N(0, \sigma_x^2), Y \sim N(0, \sigma_y^2) $ , $ P(X+Y > 0 \mid Y > 0) $ ?
[standard problem, easy to answer if drawing the figure.] 答案 $ 1/2 + \arctan(\sigma_y/\sigma_x)/\pi $
- 对任意零均值、相关系数为 $ \rho $ 的标准二元正态 $ (U,V) $ 有经典结论
$ P(U>0, V>0) = \frac{1}{4} + (1/2\pi) \arcsin \rho $ .
prob of $ X > 0 $ and $ Y > X $ , $ X, Y $ are iid standard normal $ 1/2, 1/2 $
$ x,y $ iid标准正态分布, $ P(Y>3X)=? $ follow-up: 条件 $ x>0 $ 下, $ P(Y>3X) $ 等于多少
均值相同的对称分布 $ 1/2 $
落入任何角度宽度为 $ \Delta \theta $ 的扇形的概率都等于 $ \Delta \theta / 2\pi $ 。所求区域 $ (X>0 $ 并且 $ Y>3X) $ 的角度宽度 $ \Delta \theta = \pi/2 - \theta_0 $ .
- (H) 两个人下注, 赢家win 3倍, 输家0, prob of win = 1/2, 然后两个人各有下注比例偏好, 算expected value.
- Notes: fair coin problem. You have the chance to reroll。
- expected value of max of three dice.
直接算
- notes: n uniform distribution, find the expectation of $ X_{(n)} $ the maximum
- notes: Time series: Given two time series $ X_t,Y_t $ , is it possible that correlation every month is positive but correlation over the year is negative
- xu: 如果我预测股票价格1将上涨2%, 股票价格2将上涨1%,你会如何分配你的资金?
- $ f e^{-(x^2/2)} 0 \rightarrow \infty $ 积分
Gaussian 积分,变成二重积分然后极坐标
- notes: 8男9女排成一排相邻两个是异性的期望
- (H) a,b,c 说谎的概率2/3, b 观察到了 a。c 声称 b 告诉的关于 a 的信息是真的。prob of A tell truth?
第一轮: 伦敦fixed income小哥
- Xu: 1. risk preference / Kelly’ s criterion: given a toy game that can be played infinitely many times with positive EV, there are two strategies A and, B with different risk preferences. Which one is better? (Kelly’ s criterion)
Follow up: how is Kelly's criterion derived, and what's the motivation behind it?
- 2.a 定义 N 为掷骰子的次数,直到得到 6。N 的分布是什么? E(N) 是多少?
几何分布, 6
- 2.b 设 A 为事件,表示所有的掷骰子结果仅包含 4、5 和 6。E(N|A) 是多少?
几何分布, 3
My intuition was wrong, then was asked to write simulation codes to find numerical answers. I got that one, but then was not able to give an intuition why.
第二轮:纽约 fixed income 小哥
- 给定两个骰子,一个是常规的,另一个没有数字。你可以在第二个骰子上涂绘任何数字。要求是:每次同时掷这两个骰子时,得到的和应该是在整数 1 到 12 之间均匀分布。
有且只有 0 0 0 6 6 6
- 抛硬币,抛到 6 游戏结束 第 n 次时候结束的话就给我 1/n 的 payoff, 求参加游戏的 fair price。
直接算,利用级数求和公式 -ln(1-x) 泰勒展开级数
- 周六下雨 20% 可能 周日下雨 20% 可能。先问周末会下雨的可能性?如果周六下雨与周日下雨的 corr 是 0.6,那么周末下雨可能性是多少?
$
\text{Corr}(A, B) = \frac{P(A \cap B) - P(A)P(B)}{\sqrt{P(A)(1 - P(A))P(B)(1 - P(B))}}
$
- 投硬币求至少 2 次正面的概率
简单直接算
- notes: 然后问了概率 a 个红球 b 个蓝球随便放。连续的红球算一组,问一共多少组的期望。
- 一个 fair coin 和 unfair coin p(H) > 1/2, A 和 B 但不知道其中哪个是 fair 的,现在你对其中一个 A 做实验抛三次得到了两个 head, 另一个抛一次得到了 1 一个 head, 问哪个更有可能是 unfair coin。
用纯 bayesian 算,然后被问有无更快的方法,然后说了可以直接给 odds
- 在市中心建一个地铁站,给他安排从月台出站的电梯和从外面入站到月台的电梯,哪个应该多
题主一开始答了应该一样因为早晚高峰从市区外到市区内和市区内到市区外的可以看作 symmetry, 几轮提示后意识到实际是在考察 uniform distribution 和 poisson distribution, 入站人流是均匀的但是列车到达是 poisson 所以月台往上更容易有人流积压需要更多电梯
乘客从周边街道陆续走到车站闸机,单人或小群体到达,在统计上可近似为“个体 Poisson 流”到了月台以后可以分散等车。
每趟列车到站立即同时“倒”出 k( ≈上百) 名乘客。这是典型的“批量 (batched) Poisson 流”或称 Compound Poisson
- n个身高不同的人排队看向同一个方向, 更高的人可以越过矮一点的人看到前面, 问能看到最前面的人数的期望值。
指示变量技巧 Xi=1 代表 i 可看到。答案是调和级数, 然后问调和级数收敛还是发散, 发散的速度是多少( log n, 用积分 approximate)
$ E[X] = 1 + \sum_{i=2}^{n} P(\text{第 } i \text{ 个人能看到}) = 1 + \sum_{i=2}^{n} \frac{1}{i} = 1 + H_n - 1 $
- ( H) 一个游戏有 100 刀的奖励,抽 100 张牌红黑各 50 张,每次抽 1 张牌抽完可以选择停止或者继续,直到 100 张牌抽完为止。如果抽完牌后选择停止手上红牌的比例*100 就是最后能得到的奖励,求这个游戏的预期收益 expected payoff。
- 当手中红牌比例已高到足以抵消继续抽牌的风险时就立即停,否则继续。阈值随剩余牌数而下降——牌越少,稍微领先就应该收手。
小规模例子
红黑各 1 张时最优期望为 3/4 = 0.75
红黑各 2 张时最优期望为 7/9 ≈ 0.7778
红黑各 50 张时上升到 0.79295…,再往上趋向极限 0.793
- Notes: 正整数 x, y, z, 满足 x+y+z=N, x< =y< =z. f(N) 为满足这些条件的 (x, y, z) 个数。问 $ \lim_{N \to \infty} f(N)/N^2 $ as N->inf.
Ans: 3D 坐标空间下的四面体。沿两条轴 x=y, y=z 各切一半。四面体体积为 o(N^3), 切那两刀取的部分是 const, 因此 f(N)~O(N^3). limit ~ O(N). 面试官说是开放答案,没告诉我准确解。
Millennium
- 在时间 $ t=0 $ 时,我们拥有一批存货,价值为 $ p_0 $ ; 我们需要在时间 $ t=T $ 时将存货清仓,此时价值为 $ p_T $ ,其中 $ p_0 > p_T > 0 $ 。我们需要找到 $ p_1, p_2, \ldots, p_{T-1} $ ,使得以下目标函数最小化
$ \text{Sum}_i \{ a*(p_i)^2 + b*(p_i-p_{i-1})^2 \} $
其中 a 和 b 是大于零的常数。
二次函数,考虑闭式解。一阶最优条件推出三对角线性方程组
- Xu: How to derive black scholes equation and what are the assumptions?
- Xu: How to price an european bond futures option?
Given $ X \sim U[a,b] $ and $ Y \sim U[c,d] $ . Conditioning on $ X > k - Y $ , find the slope of the regression line.
- 直接计算 $ \frac{\text{cov}(X,Y)}{\text{cov}(X,X)} $ 算平面上积分,二元分布为多边形一致分布
- 你掷骰子 $ n $ 次并得到一系列结果,你该如何检验这个骰子是否是公平的?
假设检验 $ 0 $ 假设公平的, $ n $ 很大用中心极限定理近似
- Notes: A 和 B 轮流抛硬币,出现序列 HT 就停,抛出 T 的人赢,问 A 胜率多少
- ( H) 推广到序列 HTH; 如果用 monte carlo 怎么 simulate 可以比较快
用马尔科夫链,状态 0、H、HT 先抛赢的概率未知数解方程
- 经典等公交问题。公交车的到达时间不固定,假设公交车按照泊松过程到达,即相邻两辆车的时间间隔服从指数分布,那么你随机到达车站时,期望需要等待多少时间?
期望等待时间是间隔期望的一半
- A 和 B 玩游戏, A 写下 H 或者 T, B 去猜,四种情况:猜对是 H, B 得 $ 2 $ ;猜对是 T, B 得 $ 3 $ ; H 猜错了, B 扣 $ 1 $ ; T 猜错了, B 扣 $ 2 $ 。问如果你是 B, 你玩不玩这个游戏。
直接算期望,为正的,玩这个游戏
- 随机游走是平稳的吗?
方差线性依赖时间
- 对于正偏分布,中位数、均值和众数之间的关系是什么?
分布右侧尾巴更长、更厚;大部分数据集中在左侧;少数大值向右拉伸分布
众数 < 中位数 < 均值
Jump trading
- [0,1] 上每次随机选择闭区间套,下一个区间是上一个区间长度的一半,求极限点的期望和方差
期望为 0.5,设方差为未知数,利用全方差公式解方程
- 在平面上单位圆内随机取点,算落在一个子集里的概率。子集是一个抛物线围起来的图形
直接积分算面积。
- randomly sample on square, $ a= $ 点到圆心的距离, $ b= $ 点到最近的边的距离。求 $ \text{Pr}(a< b ) $ 。
用 $ xy $ 坐标算就行了。这道题在其他帖子的 on site 里有出现
- give a sequence $ x_1 < x_2 < \ldots < x_n $ , 找到 $ c $ 分开这个 sequence , 然后找到 $ y_0 , y_1 $ , 使得 $ \sum ( x_i - y_0 )^ 2 + \sum ( x_j - y_1 ) $ is minimized , 这里 $ x_i < c $ 且 $ x_j > c $ ,
这题就是决策树如何去 splitting node 的问题, $ y_0, y_1 $ 为均值,分成两部分使得方差最小
- 找到小于200的所有质数
简单
- 线性代数, $ A^5+A^3+A=3I $ ,实矩阵,求 $ A $
Jordan对角化, 因式分解解五次实数方程, 只有1得到 $ A $ 为单位矩阵
- ? 你参加了一个赌博游戏, 需要你和你的对手各自选择一个介于0到100之间的整数。谁的数字更接近你们两人猜测值的平均数的三分之一, 谁就获胜。然而, 如果你猜0而你的对手猜100, 那么对手获胜。你的最优策略是什么?
选择1
- 问了一道概率题,但主要是要算曲面面积,先建系得到曲面边界的方程,但求积分。
- 线性算子 $ A $ 可以将 $ R^3 $ 中的任何向量围绕单位向量 $ [a,b,c] $ 旋转180度。那么 $ A $ 是什么? $ A $ 具有什么性质?
(例如,对称性、 $ A^2=Identity $ 、 $ AT=A $ 、 $ A^{-1}=A $ 等等)
$ A $ 为正交矩阵;行列式 $ det(A)=-1 $ ;具有两个特征值为-1, 一个特征值为1, 特征向量对应于旋转轴。
DESHAW
- Notes: 一题问的如果有 $ N $ 个球, 每次可以比较两个球的重量, 最少需要多少次比较可以知道哪个球最重。给出答案之后还需要给一个induction的证明。
- 给三个随机变量 $ X, Y, Z, 0 $ 到1均匀分布。第一次先显示 $ X $ 的数值,需要你决定选不选 $ X $ 。不选的话,那就看 $ Y $ ,决定选不选 $ Y $ 。不选 $ Y $ 的话,就看 $ Z $ ,如果没选 $ X $ 和 $ Y $ ,那么就必须选 $ Z $ 了。要求是希望选到的数字最大。问最优策略是啥。
优化选择分割点,对随机变量个数递推
- 如果有一堆24小时制的时间, 如果准确的求出这些时间的expectation
转化为分钟数,总分钟数= $ h \times 60+m $
- 轮盘赌。1-36数字。还有两个0和00。每次猜数字, 赌一块。赢了就拿36。如果玩105次, 赢的概率是多大
胜利的期望次数*36约等于100小于105, 计算猜对次数的概率分布*36大于105的概率
Coding? 32位整数。从存储在文件中的40亿个数字中找出缺失的数字。
Tower
- Notes: Covariance between number of 1 and number of 2 in N rolls
- 一枚硬币正面(H)概率 $ p = 0.7 $ 。现已先掷出1次反面, 继续掷币直到“正反面总次数首次相等”为止。问还需再掷多少次( 期望值)
把过程看成有偏随机游走。一步的期望位移 $ \mu = -0.4 $ ,建立鞅 $ M_n = D_n - \mu n $ ,应用停时定理:
$$ E[M_\tau] = E[M_0] $$
得到答案2.5
- 1-9随机放入一个3*3方阵, 每行每列都为奇数的概率
满足条件且恰有5个1的布置: 矩阵恰好是“一条横线+一条竖线”的十字形,共 $ 3 \times 3 = 9 $ 种位置组合。答案为 $ 9 \times 5! / 4! / 9! $
- 掷一个20面骰子和一个30面骰子, 30面骰子的数字严格大于20面骰子的数字的概率是多少
直接算 $ 13/20 $
- 如果两个随机变量的correlation是0, 那他们是相互独立的吗? 举出反例。
$ X $ 是取值为 $ -1 $ 或 $ 1 $ , $ Y $ 为 $ X $ 平方
- Notes: 一个三角形的三条边长的测量值分别是 $ x_1, x_2, x_3 $ (可能存在测量误差)。已知三角形周长为确定值 $ p $ , 问这个三角形三条边长度的estimated平均值是多少?
$$ \text{Min } \sum (x_i - a_i)^2 \quad \text{s.t. } \sum x_i = p $$
- Xu: 有一个策略的年回报率的sharp ratio是8。现在在一个长度为N天的交易数据上回测。如果回测的结果是这个策略的return是负数, 那么N至少需要多少天才可以reject这个策略sharp ratio等于8这个假设。
- Xu: 如果根据策略的Sharpe ratio分配资金。如果是independent怎么分配, 如果是identical怎么分配, 如果一个策略的Sharpe是0怎么分配, 比较开放。
- Xu: 地里题: 一个年sharp ratio为1的asset, 求4年后亏损的概率
( 用normal approximate, 中间有问clt的assumption)
- Xu: asset x, 年化sharpe ratio为1, 问4年后 $ P(\text{return}< 0 ) $ ?
Ans: $ y = x_1 + x_2 + x_3 + x_4 $ 。换算 $ E(y) / \text{std}(y) = 2 $ 。然后说chebshev不等式估 $ p(y< 0 ) $ , 面试官说很impressive 。 只要假设 $ y $ 是正态分布就够了 。
- X1, X2 are continuous random variables, i.i.d, 求 P(X1 < X2 ) ?
解释: P(X1 < X2 ) + P ( X1 = X2) + P ( X2 > X1) = 1 (reflection Principle), P(X1 < X2 ) = P ( X2 > X1) since X1, X2 are i.i.d so the solution is 1/2。
假如从上面的分布取样无穷次, X1 X2 X3 etc, 那么求 P(X10 = min (X9, X10, X11))
X1, X2, ..... 其中X10 are local minimum: X10 = min(X9,X11)
顺序统计量公式 P(X10 < = X9, X10 < = X11) = P(X10 < X9 < X11 ) + P ( X10 < X11 < X9 )
找到第一个满足 Xi < X1 的 Xi 的期望索引 。
1/p 这里 p = P(Xi < X1 ) 与人口身高的那题对比 ?
- X, Y is iid U(1,3), 求 E(X/Y)
直接算积分
- 某个东西有 state 1, state 2 等 n 种状态, 给了转移矩阵(例如 state 1 有 1/2 概率保持在 state 1, 1/2 转移到 state 2; state 2 有 1/2 概率保持, 1/4 概率转移到 state 1, 1/4 转移到 state 3 等)问这个东西在 state 1 的时间占总时间什么 fraction
解方程 πP = π 以及归一化条件
DRW
- 抛一枚不公平的硬币, 连续出现同一面称为一个“连胜”( streak, 不确定是否是这个单词)。例如, 抛出序列 TTTFFT, 第一个连胜是 TTT, 第二个连胜是 FF。问第一个连胜的长度 x 与第二个连胜的长度 y 的相关系数是多少? 什么时候它们不相关? (在公平硬币的情况下它们是不相关的)。
级数求和公式直接计算, 转换为两个无穷级数的乘 E(XY) = 1/p + 1/q
- 如何用指数分布生成离散均匀分布 (1, 2, 3, ……, n, 取 i 的概率为 1/n)
U = 1 - exp(-X) 为均匀分布
- 1/2 的几何分布采样抽到 p 或 q 倍数概率是多少, 抽到 p 和抽到 q 独立吗
不独立
$ P(X \text{ is a multiple of } p \text{ or } q) = \frac{\left(\frac{1}{2}\right)^p}{1 - \left(\frac{1}{2}\right)^p} + \frac{\left(\frac{1}{2}\right)^q}{1 - \left(\frac{1}{2}\right)^q} - \frac{\left(\frac{1}{2}\right)^{pq}}{1 - \left(\frac{1}{2}\right)^{pq}} $
- 圆上均匀采 2n 个点构成 n 条线, 交点数的期望 C(2, n)/3
- 一个袋子里有 5 个红球、5 个蓝球和 5 个黄球。我从中取出两个球, 其中至少有一个是红球。那么, 我接下来取出的第三个球也是红球的概率是多少?
- 定义 A: 前两个球中至少有一个是红球。B: 第三个球是红球。
我迷失在一片森林里。这里有四个营地,从营地 $ n $ 出发,我有 $ \frac{1}{n} $ 的概率前往营地 n+1, 有 $ 1-\frac{1}{n} $ 概率前往营地 n-1。从一个营地走到另一个营地需要一个小时。那么, 从营地 1 走到营地 4 平均需要多长时间
马尔科夫链,列方程,解得 13
- ( H) 0, 1 构成的 array, 可以一块钱从两头各去一个数字或者 2 块钱随便从中间去一个,把所有 1 去掉的最优策略。0 剩下多少无所谓
dp 还是贪心?
- ( H) 单人 blackjack 的最佳策略, 21 点游戏规则
基本原则
庄家明牌低于 7 时
16 及以下:必须拿牌
17 及以上:停牌
庄家明牌 7-A 时
16 及以下:必须拿牌
17 及以上:停牌
具体策略
硬牌策略
5-8: 必须拿牌
9: 看庄家牌面
10-11: 双倍下注
12-16: 根据庄家牌面决定
17-21: 停牌
软牌策略
A-2 到 A-5: 拿牌
A-6 到 A-7: 根据庄家牌面
A-8 到 A-10: 停牌
分牌策略
AA、88 必分
其他对子视情况
- ( H) covid test kit 有 x percent accuracy, 给两个护士用, 一个护士 60% 正确使用一个 70%,错误使用 kit 会导致结果相反。现在某个护士告诉我阳了,真的阳了的概率是多少?
贝叶斯,计算 $ P(\text{告诉阳} | \text{阳}) $ $ P(\text{告诉阳} | \text{阴}) $ 假设先验吗?
- 给一个正态分布的变量和观察到的概率,现在观测到 $ x_1 $ 和 $ x_2 $ ,求变量的期望
极大似然估计
贝叶斯推断
---
时间序列
严平稳:对任意 $ i $ : $ Z_i $ 和 $ Z_{i-k} $ 的联合分布只与 time lag $ k $ 有关
弱平稳:对任意 $ i $ : $ Z_i $ 和 $ Z_{i-k} $ 的 Covariance 只与 time lag $ k $ 有关
1. 严平稳加上二阶矩存在的条件才能推出弱平稳。
2. 时间序列多元正态,严平稳与弱平稳等价。
3. 平稳时间序列 Mean, Var 是常数。所以 BM 不是平稳,一阶差分是。
如果序列是平稳的即它的行为并不会随着时间的推移而变化,那么我们就可以通过该序列过去的
行为来预测未来。
ARMA( $ p,q $ ):
$$
\left(1 - \sum_{i=1}^{p} \phi_i L^i\right)X_i = \left(1 + \sum_{i=1}^{q} \theta_i L^i\right)\epsilon_i
$$
根都在单位圆外, AR( $ p $ ) 稳定, MA( $ q $ ) 可逆。特例, AR(1): $ X_i = \phi X_{i-1} + \epsilon_i $ ,当 $ |\phi| < 1 $ 时稳定
实际中我们把相关函数近似成 $ N(0,1/n) $ ,所以在一个 std 内 $ [-\frac{1}{\sqrt{n}}, \frac{1}{\sqrt{n}}] $ 就当做为 0 了
白噪声检验: $ H_0: \rho_0 = \cdots = \rho_n = 0 $ . Q 统计量, LB 统计量
稳定性检验:
单位根检验: ADF 值越小,越拒绝原假设,越说明序列不存在单位根,那么时间序列越平稳
Option
Carr-Madan formula:
$
f(F) = f(k) + f'(k)[(F - k)^+ - (k - F)^+] + \int_0^k f''(K)(K - F)^+ dK + \int_k^\infty f''(K)(F - K)^+ dK
$
$
\frac{d}{dx} \int_{b(x)}^{a(x)} f(x, y) dy = f(a(x), y)a'(x) - f(b(x), y)b'(x) + \int_{b(x)}^{a(x)} \frac{d}{dx} f(x, y) dy
$
Non-resetting: 只考虑1usd vs 1eur, FX 会被消掉;
Resetting: 只考虑1EUR, i次时候, 1EUR = FX_i-1 UDS = dfeur/dfusd UDS notional 上pay Li
并且还回本金同时pay出下一次的notional 1EUR = FX_i UDS. 最后一次不用pay 出
Greek:
Multi asset (portfolio) 时候传统tweak 绝对值的greek没有意义, 因为不同underlying 量纲不同, 所以这里我们按比例tweak
$
\Delta = \frac{P(S + 1\% \times S) - P(S)}{1\%} = \Delta \times S
$
$
\Gamma = \Delta (S + 1\% \times S) \times S - \Delta (S) \times S = \Gamma \times S^2 / 100
$
但像 Vega, IR Delta 由于本身就是比率没有量纲, 所以就按正常定义
https://bookdown.org/maxime_debellefroid/MyBook/the-greeks.html#gamma -pl
Call:
1. T变小其他图像都是两翼扁平中间突起, 唯独 vega 中间不凸起(但不完全单调). 因此可以
根据期限构造出符号相反portifolio
2. Vol很大等价的T很大时, call接近S
Digital:
1. IV 越小, 两翼越容易接近0, 因为很难越过 K。图像两边平坦中间凸起
2. T越短, 两翼越容易接近0, 因为很难越过 K。T 接近0时, 就是 payoff。图像两边平坦中间凸起
3. 对于 digital 的价格,因为 lognormal 有fat right tail, lognormal 会比 normal 价格高
4. 通常用 call spread 来over-hedge digital 使得 greek 尤其 delta 更加平滑, 同时call也更liquid。S 变动越大, Overhedge 部分( $ \epsilon $ )越宽
1. 排序能够消除 dispersion, 所以 rainbow 对 dispersion 不敏感
2. 增加 correlation -> 增加 vol -> 增加 option 价格
3. 一般 rainbow 对 correlation 的 sensitive 不确定,对于 worst/best 增加 correlation -> 减少 vol -> 减少 option 价格,所以是 short dispersion, long vol
CNY 7d-3M compounding, benchmark 只有 swap, G10 才有 future
LPR 1Y 有 payment fre 3m 和 1y, 3m 因为比 1y 更 liquid 所以直接用 build-in rather than delay adjustment
HKD 有 2m-3m Hibor FRA
CNY deliverable 7 repo 3m, 也有SHIBOR 3M
CNH: CNH Hibor 3M
CNY off-share non-deliverable 7 repo 3m,
CNY deliverable 7 repo 3m,
Fixing OT/NT cash rate up to 1m
HKD 1M
USD LIBOR