马尔可夫模型(Markov models

马尔可夫性质(英语:Markov property)是概率论中的一个概念,因为俄国数学家安德雷·马尔可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。

马尔可夫模型(Markov models)包括四种:

全观测 部分观测
System is autonomous 马尔科夫链 HMM
System is controlled 马尔科夫决策过程 部分观测马尔科夫决策过程
  • 马尔可夫链(英语:Markov chain),又称离散时间马可夫链(discrete-time Markov chain) 。下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。
  • m阶马尔可夫链。未来状态取决于其前m个状态

    这个的转移概率矩阵,是什么样的?这个矩阵会特别大吧?
  • Markov random field

bi-gram的转义概率是个二元矩阵,n-gram的转义概率是什么?n元的tensor吗?
n元的tensor会非常稀疏。

n-gram的n大小对性能的影响

n更大的时候

n: 对下一个词出现的约束性信息更多,更大的辨别力,但是更稀疏,并且n-gram的总数也更多,为 V^n 个(V为词汇表的大小)

n更小的时候

在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性 ,但是约束信息更少

其中当N为特定值的时候,我们来看一下n-gram可能的总数,如下表

词表中词的个数 |V|=20,000词

n 所有可能的n-gram数
2 bigram 400,000,000
3 trigram 8,0000,0000,0000,0000
4 4-grams 1.6 *10^17

3gram数据太大了