from future import absolute_import
from future import division
from future import print_function
import numpy as np
import tensorflow as tf
import os
import loader as loader
from eval import eval

FLAGS.dataset = “sogou”
FLAGS.tf_checkpoint_dir
FLAGS.tf_checkpoint_dir = “model/“
FLAGS.model = “model.ckpt-44”
FLAGS.dict = “dict.sogou.100000”

batch_size = 64
interval=[4000,20000,40000,100004]
cluster_num = len(interval) - 1

def get_head_label(targetY):

head_labels = np.reshape(targetY, [-1])
for i in range(cluster_num):
    mask = np.logical_and(np.greater_equal(targetY, interval[i]), np.less(targetY, interval[i + 1]))
    head_labels = np.where(mask, [interval[0] + i] * head_labels.shape[0], head_labels)
return head_labels

e = eval()
result = e.loader.get_batch(batch_size)
all_names = []
all_losses = []
all_scores = []
while result:
inputX_test, targetY_test, seqlen, names = result
val = e.eval(inputX_test,targetY_test,seqlen)
losses ,scores = e.get_loss(val,seqlen)
all_names.extend(names)
all_losses.extend(losses[:len(names)])
all_scores.extend(scores[:len(names)])
result = e.loader.get_batch(batch_size)

#print('the loss is ')
#for sent , loss in zip(inputX_test,losses):
#    print(unicode(e.vocab.decode(sent),encoding='utf8').encode('utf8'))
#    print(loss)

with open(‘lm-sencond.txt’,’w’) as file:
for name,loss in zip(all_names,all_losses):
file.write(name+’ ‘+str(loss)+’\n’)
with open(‘lm-second-score.txt’,’w’) as file:
for name,score in zip(all_names,all_scores):
file.write(name+’ ‘+str(score)+’\n’)

【机器翻译】工业届发展史

2006年,谷歌开始提供机器翻译服务,采用基于短语的机器翻译

百度翻译

腾讯翻译

https://ai.qq.com/product/nlptrans.shtml#text

腾讯机器翻译(Tencent Machine Translation)基于腾讯领先的底层算法、丰富的中文知识图谱和先进的NLP引擎能力,结合了神经网络机器翻译统计机器翻译的优点,对源语言文本进行深入理解,使翻译效果更为准确,同时支持语音翻译、图片翻译、语种识别等多种场景,大大减轻传统文本翻译的读写成本,翻译更轻松。

讯飞翻译

搜狗翻译

log

用log级别

  • 防止underflow
  • 乘法变成加法,加速计算

上溢

乘法中如果数字相乘过大会导致溢出的问题,从而导致数据的丢失.

log sum问题

定点化(对比浮点)

浮点运算变成定点运算:

  • 减小模型大小
  • 加快计算速度
  • 降低功耗

随着计算性能提升,速度优势没那么大。
手机端也重视精度,因此采用GPU、TPU。

常用的方法

从最大似然到EM算法浅解

要由简入深

先介绍没有隐变量,MLE或者MAP就能够解决。

简单

复杂

模型很复杂,似然函数虽然貌似可以写出来,但是要给指数级的项目求和,或者似然函数根本写不出来。

这样的模型就不能简单最大化似然了之了。

虽然不能直接写出模型的似然函数,要是给模型加上几个隐变量,那么给定参数下,数据与隐变量的联合分布倒是很容易算,要是知道隐变量的值,针对参数最大化似然函数也很容易。

唯一的问题是,他们既不知道隐变量的值,也不知道参数的值。
这时就可以用到 EM 算法了,这个两步的算法很好地解决了这个两不知的问题,也即:第一步,给定参数,对隐变量做期望,算出包括隐变量的似然函数;第二步,对这个似然函数最大化,update 参数。因为这个模型可以让似然函数递增,如果似然函数是凹函数,那就一定会收敛到最大值,如果似然函数有多个极值,则要随机化初始参数值,算很多次,选择似然最大的参数。

EM对初始值的敏感。

HMM,

首先平均初始化(硬平均策略,比如kaldi 音频里的平均切分)。GMM先验概率,

#

EM方法是在有缺失值时进行估计的一种方法,这是一个迭代方法,每个迭代有求期望(E)和最大化(M)两个步骤。其中M可以是MLE或者MAP。

EM算法(Expectation-maximization),期望最大化算法。在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,

  1. 计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;
  2. 最大化(M),最大化在E步上求得的最大似然(MLE)值来计算参数的值。(或者MAP)
  3. M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

简版:猜(E-step),反思(M-step),重复;

  1. 注意,你猜的时候,要尽可能的猜遍所有情况,然后求期望(Expected);就是你不能仅仅猜一个个例,而是要猜出来整个宇宙;2. 为什么要猜,因为反思的时候,知道全部的东西比较好。(就是P(X,Z)要比P(X)好优化一些。Z是hidden states)

示例

无缺失值 - MLE或者MAP

一枚硬币扔了五次,有一次是正面。

用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果。不难计算得到期望概率0.2。

有缺失值 - EM 迭代

假设投了五次硬币,记录到结果中有两正一反,还有两次的数据没有记录下来

需要注意,为缺失值赋值可以有两种策略,一种是按某种概率赋随机值,采用这种方法得到所谓hard EM,另一种用概率的期望值来为缺失变量赋值,这是通常所谓的EM。

另外,上例中,为两个缺失记录赋随机值,以期望为0.8的0-1分布为他们赋值,还是以期望为0.2的0-1分布为他们赋值,得到的结果会不同。而赋值方法的这种差别,实际上体现了不同的先验信息。所以即便在M步骤中采用MLE,EM方法也融入了非常多的先验信息。

扔硬币 - 多个变量

LDA

上面的例子中只有一个随机变量,而LDA中则有多个随机变量,考虑的是某些随机变量完全没有观测值的情况(也就是Latent变量),由于模型非常复杂,LDA最初提出时采用了变分方法得到一个简单的模型,EM被应用在简化后的模型上。从学习角度说,以PLSA为例来理解EM会更容易一点。另外,kmeans聚类方法实际上是典型的hard EM,而soft kmeans则是通常的EM

扩展阅读