Processing math: 100%
伪随机数
May 5, 2017
2 minute read

伪随机性(英语:Pseudorandomness)是指一个过程似乎是随机的,但实际上并不是。例如伪随机数(或称伪乱数),是使用一个确定性的算法计算出来的似乎是随机的数序,因此伪随机数实际上并不随机。在计算伪随机数时假如使用的开始值不变的话,那么伪随机数的数序也不变。伪随机数的随机性可以用它的统计特性来衡量,其主要特征是每个数出现的可能性和它出现时与数序中其它数的关系。伪随机数的优点是它的计算比较简单,而且只使用少数数值很难推算出计算它的算法。一般人们使用一个假的随机数,比如电脑上的时间作为计算伪随机数的开始值。

产生随机数的方法

  • 线性同余法
  • 平方取中法
  • M-Sequence
  • 梅森旋转算法
  • 伪随机数二进制数列

其中使用最多的是线性同余法梅森旋转算法,下面主要介绍一下线性同余法

线性同余法(LCG linear congruential generator)

线性同余方法(LCG)是个产生伪随机数的方法。 它是根据递归公式: Nj+1(A×Nj+C)(modM) 其中A,C,M是产生器设定的常数。

Python implementation

class Random:
    def __init__(self, A, C, M, seed=0):
        self._A = A
        self._C = C
        self._M = M
        self._prev = seed % M

    def __call__(self):
        A = self._A
        C = self._C
        M = self._M
        prev = self._prev

        cur = self._prev = (A * prev + C) % M
        return cur / M

    def __repr__(self):
        return 'Random(A={obj._A!r}, C={obj._C!r}, M={obj._M!r})'.format(obj=self)

随机数序列周期长度

Linear_congruential_generator_visualisation.svg LCG产生的随机数序列周期最大为M,但大部分情况都会少于M。要使随机数序列达到最大周期,应符合以下条件:

  1. C,M互质;
  2. M的所有质因数都能整除 A1
  3. M是4的倍数, A1也是;
  4. A,C,N0都比 M小;
  5. A,C是正整数。

优点与缺点

  • LCG速度非常快,需要的内存少;
  • LCG不适用于需要高质量的随机数的应用,例如蒙特卡罗模拟Monte Carlo simulation
  • 当使用LCG生成n维空间中的点,则这些点将位于(n!m)1/n超平面(hyperplanes);(Marsaglia's Theorem)

    Random(A=65539, C=0, M=2**31, seed=1)

    Spectral test是一种伪随机数生成器(PRNG),线性同余生成器(LCG)的生成的随机数质量的统计检验方法。 例如,使用Random(A=65539, C=0, M=2**31, seed=1)产生100,000个随机数在3维空间上的分布。很明显,所有点只落在15个二维平面上。这是由LCG产生的随机数序列中相继值的关联导致的。

非均匀分布随机数的生成

用线性同余法可产生在[0,1)间均匀分布的随机数,利用反变换法Inverse transform sampling来产生非均匀分布的随机数。

均匀分布

产生一个在axb随机分布的随机数序列,期望的概率密度是: p(x)={1/(ba),axb0,otherwise 计算累积分布函数 F(x)={0,x<axaba,ax<b1,xb 计算逆累积分布函数: F1(p)=a+(ba)p,p[0,1]

利用上面的公式我们就可以产生符合均匀分布的随机数。这个过程就叫做反变换法

Python implementation

random = Random(A=65539, C=0, M=2**31, seed=1)

def uniformDistributionFactory(a, b):
    if a > b:
        raise ValueError('a must be smaller than b')

    def uniform_distribution():
        p = random()
        return a + (b - a) * p

    return uniform_distribution

概率密度图像

Probability density

指数分布

指数分布的概率密度函数为: p(x)=λeλx,x>0(λ>0) 计算累积分布函数: F(x)=1eλx 计算逆累积分布函数: F1(p)=ln(1p)λ 利用上面的公式我们就可以产生符合指数分布的随机数。不过,因为p是均匀分布的,则1p也是均匀分布的,所以上式可以简化成下式 F1(p)=ln(p)λ

Python implementation

import math

random = Random(A=65539, C=0, M=2**31, seed=1)

def exponentialDistributionFactory(lam):
    if not lam > 0:
        raise ValueError('lambda must be bigger than 0')

    def exponential_distribution():
        p = random()
        return - math.log(p, math.e) / lam

    return exponential_distribution

概率密度图像

Probability density

正态分布

正态分布的概率密度函数为 p(x)=12πσ2e(xμ)22σ2 计算累积分布函数:

  • 假设现在有两个独立的标准正态分布XN(0,1)YN(0,1),由于二者相互独立,则联合概率密度函数为: p(x,y)=p(x)p(y)=12πex2212πey22=12πex2+y22

  • 做极坐标变换,则x=Rcosθy=Rsinθ,则有: 12πex2+y22=12πeR22

  • 这个结果可以看作是两个概率分布的密度函数的乘积,设其中一个是[0,2π]上的均匀分布θUnif(0,2π)=12π,则另外一个密度函数为: p(R)=eR22

  • 计算其累计分布函数: F(r)=1er22

计算逆累积分布函数: F1(p)=2ln(1p)

根据反变换法,我们可以根据上式得出符合p®的分布,而如果p是均匀分布的,则u1=1p也是均匀分布的,则: X=Rcosθ=2lnu1cos(2πu2)Y=Rsinθ=2lnu1sin(2πu2) 利用以上任意一式即可生成符合正态分布的随机数,这个过程称作Box-Muller变换

Python implementation

import math

random = Random(A=65539, C=0, M=2**31, seed=1)

def NormalDistributionFactory(mu, sigma):

    def normal_distribution():
        u1 = random()
        u2 = random()
        z = math.sqrt(-2*math.log(u1, math.e)) * math.cos(2 * math.pi * u2)
        # z = math.sqrt(-2*math.log(u1, math.e)) * math.sin(2 * math.pi * u2)
        return z * sigma + mu

    return normal_distribution

概率密度图像

Probability density

结论

以上简单的讲了如何用线性同余法来生成均匀分布在[0,1)间的随机数,再利用反变换法生成非均匀分布的伪随机数,例如指数分布,正态分布

参考