最近在看LSH(Locality Sensitive Hashing)相关的资料,里面有一个欧式空间的分析,涉及到概率密度的线性变化。之前百思不得其解,后来google了相关概率密度的内容后,得到了正确的解法。主要思想就是概率密度函数之间的关系,需要通过分布函数来转换,因为连续概率密度函数上的任一点,概率均为0。

假设随机变量$X \sim D$,D是一个特定分布,其概率密度函数$f_X(x)$。那么随机变量$Y$与$cX$分布相同(c为常数且$c \gt 0$),且X的概率密度函数为$f_X(x)$,那么Y的概率密度函数是什么?既然$\frac{Y}{c}$与X同分布,那么是否有$f_Y=f_X(\frac{y}{c})$。这个的想法是错误的,之前就在这里卡壳。需要考虑到分布函数,也就是真实的概率,而不是直接套用概率密度函数,因为概率密度函数上任意一点概率为0,没有意义。

假设X的分为函数为$F_X(x)$,那么分布函数与概率密度的关系:

\[F_X(x)=Pr(X \le x)=\int_{-\infty}^x f_X(t)dt \Rightarrow f_X(x) = \frac{d F_X(x)}{dx} \qquad(1)\]

所以参考(1),对于Y的分布函数,有如下

\[F_Y(y) = Pr(Y \le y) = Pr(cX \le y) = Pr(X \le \frac{y}{c}) = F_X(\frac{y}{c}) \qquad (2)\]

对(2)求导,得到Y的概率密度函数(需要利用复合函数求导),

\[f_Y(y) = \frac{d F_X(\frac{y}{c})}{dy} = \frac{1}{c} f_X(\frac{y}{c}) \qquad(3)\]

最后(3)就是随机变量$Y$的概率密度函数。

小结

  1. 概率密度的关系需要借助分布函数
  2. 概率密度函数上任意一点概率为0
  3. 常系数随机变量的概率密度关系为公式(3)

参考资料