@classmethod, @staticmethod, @property?

这些都是装饰器(decorator)。装饰器是一种特殊的函数,要么接受函数作为输入参数,并返回一个函数,要么接受一个类作为输入参数,并返回一个类。@标记是语法糖(syntactic sugar),可以让你以简单易读得方式装饰目标对象。

装饰器跟工厂模式有关系吗?参考tensor2tensor中的装饰器

python多线程

Python和多线程(multi-threading)。这是个好主意码?

Python并不支持真正意义上的多线程。Python中提供了多线程包,但是如果你想通过多线程提高代码的速度,使用多线程包并不是个好主意。Python中有一个被称为Global Interpreter Lock(GIL)的东西,它会确保任何时候你的多个线程中,只有一个被执行。线程的执行速度非常之快,会让你误以为线程是并行执行的,但是实际上都是轮流执行。经过GIL这一道关卡处理,会增加执行的开销。这意味着,如果你想提高代码的运行速度,使用threading包并不是一个很好的方法。

不过还是有很多理由促使我们使用threading包的。如果你想同时执行一些任务,而且不考虑效率问题,那么使用这个包是完全没问题的,而且也很方便。但是大部分情况下,并不是这么一回事,你会希望把多线程的部分外包给操作系统完成(通过开启多个进程),或者是某些调用你的Python代码的外部程序(例如Spark或Hadoop),又或者是你的Python代码调用的其他代码(例如,你可以在Python中调用C函数,用于处理开销较大的多线程工作)。

【机器翻译】- 机器翻译 发展史

机器翻译历史

  • 直接转换法
    • 从源语言句子的表层出发,将单词、短语或句子直接置换成目标语言译文,必要时进行简单的词序调整。对原文句子的分析仅满足于特定译文生成的需要。这类翻译系统一般针对某一个特定的语言对,将分析与生成、语言数据、文法和规则与程序等都融合在一起。例如:I like Mary. –> Me(I) gusta(like) Maria(Mary).
      X like Y –> Y X gusta
  • 基于规则的机器翻译(Rule-based)
    • 对源语言和目标语言均进行适当描述、把翻译机制与语法分开、用规则描述语法的实现思想
    • 1954年 Georgetown 大学在 IBM 协助下,用IBM-701计算机实现了世界上第一个 MT 系统,实现俄译英翻译,1954年1月该系统在纽约公开演示。系统只有250条俄语词汇,6 条语法规则,可以翻译简单的俄语句子。
  • 统计机器翻译 SMT(-2016):
    • 1990年,IBM 提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期。
  • 神经机器翻译 NMT(2016-):
    • 优点:翻译更加顺畅;不需要去存储短语表,而是有着一个小规模的词汇表,这大大减小了计算的复杂度。
    • 缺点:为了能够控制计算的复杂度,有着一个固定大小的词汇表,通常会将词汇表限制在 30k 到 80k 之间,这就导致了其在翻译未登录词时有着严重的不足

主流架构

  • 基于规则的机器翻译
  • 统计机器翻译 SMT:
  • 神经机器翻译 NMT
    • 优点:翻译更加顺畅;不需要去存储短语表,而是有着一个小规模的词汇表,这大大减小了计算的复杂度。
    • 缺点:为了能够控制计算的复杂度,有着一个固定大小的词汇表,通常会将词汇表限制在 30k 到 80k 之间,这就导致了其在翻译未登录词时有着严重的不足。
## SMT时代

- 1978年欧共体启动多语言机器翻译计划; 11.1.2 机器翻译的产生与发展
- 1982 ~ 1986,日本在提出第五代机的同时,研究日英双向机器翻译系统 Mu 和亚洲多语言机器翻译(日语、汉语、印尼语、马来西亚语、泰国语);
- 1990年,IBM 提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期。

NMT时代

  • 2005年,Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统。基于规则方法固守的最后一个堡垒被拔掉了。
  • 2016 GNMT
  • facebook FAIR在上个月刚祭出state of the art的convseq2seq
  • 谷歌全attention机器翻译模型Transformer, WMT en-de和en-fr都刷
    到了新的state of the art,而且这次不用RNN,不用CNN,只有attention