【北大公开课】人工智能与金融服务 漆远

漆远
蚂蚁金服副总裁、首席数据科学家、国家千人计划特聘专家

漆远教授在2005年获得MIT博士学位,并在计算机与人工智能实验室进行博士后研究工作。
他于2007年加入普渡大学并在2013年成为普渡大学计算机科学系和统计系的终身(副)教授。
14年回国来到阿里。
北大客座教授。JMLR执行编辑,ICML领域主席。

报告题目:人工智能与金融服务
报告时间:2018-03-06

维度尺寸设计 - 卷积

#

卷积维度设计

常见的卷积

##

1×1卷积

1×1的卷积层(可能)引起人们的重视是在NIN的结构中

1×1卷积核,实质多个feature map的线性组合。功能:

  1. 实现跨通道的交互和信息整合
  2. 进行卷积核通道数的变化(降维或升维)
  3. 保持feature map尺寸不变(即不损失分辨率)的前提下大幅增加非线性特征,把网络做的很deep。
  4. 参数少

缺陷:起不到context作用。

利用MLP代替传统的线性卷积核,从而提高网络的表达能力。文中同时利用了跨通道pooling的角度解释,认为文中提出的MLP其实等价于在传统卷积核后面接cccp层,从而实现多个feature map的线性组合,实现跨通道的信息整合。而cccp层是等价于1×1卷积的,因此细看NIN的caffe实现,就是在每个传统卷积层后面接了两个cccp层(其实就是接了两个1×1的卷积层)。

扩展阅读

参考

https://blog.csdn.net/u014114990/article/details/50767786

维度尺寸设计 - 池化

bad case

TextCNN

good case

Overlapping Pooling

AlexNet中采用Overlapping Pooling

这个想法很好
传统的Pooling层是不重叠的,而本论文提出使Pooling层重叠可以降低错误率,而且对防止过拟合有一定的效果。
keras的resnet实现也采用了s=2 z=3的方式pooling

##

【机器翻译】- 资源集合

codes [常用深度学习工具包]

公开数据集

开源社区、toolbox

汇总

  • Giza++ a training tool for IBM Model 1-5 (version for gcc-4) , and extension of Giza
  • MGiza++是在Giza++基础上扩充的一中多线程Giza++工具
  • Pgiza++是运行在分布式机器上的Giza++工具,使用了MapReduce技术的框架
  • Moses, a complete SMT system
  • UCAM-SMT, the Cambridge Statistical Machine Translation system
  • Phrasal, a toolkit for phrase-based SMT
  • cdec, a decoder for syntax-based SMT * Joshua, a decoder for syntax-based SMT
  • Jane, decoder for syntax-based SMT
  • Pharaoh a decoder for phrase-based SMT
  • Rewrite a decoder for IBM Model 4
  • BLEU scoring tool for machine translation evaluation
  • Egypt

    Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块:
    Whittle:语料库预处理模块;
    GIZA:用于从句子对齐的双语语料库中训练词语对齐;
    Cairo:词语对齐的可视化工具
    Decoder:解码器,即用来执行具体的翻译过程模块,这一模块没有开放源码。
  • SRILM

    SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。
  • 法老(Pharaoh)系统

    “法老”是较早公开的统计机器翻译系统,是由美国南加州大学信息科学实验室(Information Science Institute)的菲利普.科恩(Philipp Koehn)在2004年做博士论文期间编写的。可能由于较早的开源软件以“埃及(Egypt)”命名的缘故吧,这一系统也采用埃及的代表性事物“法老(Pharaoh)”命名。它是一个基于短语的(Phrased-based)统计机器翻译系统。。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型。既然是以短语作为翻译的基本单元,因此还需要获得关于短语翻译的知识。通过前面的介绍我们知道通过GIZA++训练可以得到单词对齐,根据单词对齐我们可以进行短语抽取。
  • Moses

    当今最有名的开源统计机器翻译系统。绝大多数的统计机器翻译技术在Moses中都有支持,比如基于短语的模型、基于句法的模型、各种解码方法、各种特征权重训练方法。概括一下:历史悠久(相对),技术全面,性能出色,论文的baseline。
    “摩西”是“法老”的升级版本,增加了许多功能。它是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。来自这8家单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。

    相比于“法老”,“摩西”主要有如下几个新的特性:
    a.使用要素翻译模型(Factored Translation Model)
    b.混合网络解码(Confusion Network Decoding)

    现在的Moses系统极其复杂,代码阅读起来是比较吃力的。如果是想学习统计机器翻译技术,我倒是觉得Joshua和NiuTrans是不错的选择。
  • SilkRoad 丝路

    中国第一个开源的统计机器翻译系统,“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会[14]上发布。“丝路”包括以下模块:语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。

    后期的更新和维护没有跟上,现在使用的似乎不是非常多。
  • NiuTrans

    NiuTrans的特点是国人开发,性能稳定,翻译模型支持全面,NiuTrans团队对系统进行不断升级。
    从全世界范围来看,现在机器翻译的开源工具不下30个。还有其它的系统,比如Akamon等,还有比较相关的如GIZA++,SRILM等,但是这里就不详细介绍了。

参考文献

模型 paper year + 会议 简介 创新点 缺陷 code
基于短语的翻译(PBMT) IBM 1989 模型超复杂
Sequence to Sequence Learning with Neural Networks NIPS 2014 tensorflow
Learning Phrase Representations using RNN Encoder-Decoder for SMT EMNLP2014
Effective Approaches to Attention-based Neural Machine Translation EMNLP 2015 基于高斯分布推导了Local Attention,比较了Global Align Attention和Local Align Attention, 和视频处理里面 Soft Attention 和 Hard Attention建立了联系。 code
Neural machine translation by jointly learning to align and translate ICLR 2015 RNN+attention 首次加入attention,ALIGN AND TRANSLATE
GNMT Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation 2016 deep_LSTM, residual, attention, converage,subword
  • 宗成庆:《自然语言理解》
    -

必看

【机器翻译】- 系统

  • 解码器
  • if-else的trick
  • ensemble
  • rerank

  • 融合统计与深度学习的方法

  • 利用优先队列及候选翻译表
  • 搜索算法

  • 优化模型解码等技术,提高解码速度

  • 模型压缩技术,将模型规模压缩70倍以上,手机端可存储,同时采用动态加载

无监督机器翻译

简介

平行语料比较匮乏

完全无监督 的方式训练 NMT 系统

仅需使用单语语料库

  • 三角剖分(triangulation)
  • 半监督学习技术

在近期关于无监督嵌入映射的研究基础上构建,包含经过少许修改的注意力编码器-解码器模型(attentional encoder-decoder model),该模型使用去噪和回译(backtranslation)结合的方式在单语语料库上进行训练

该模型的基本思想是, 通过将来自不同语言的句子映射到同一个隐空间下来进行句子翻译

对语言 L1 中的每个句子,该系统都通过两个步骤进行训练:

  1. 去噪——利用共享编码器优化对句子带噪声版本进行编码和使用 L1 解码器重构句子的概率;
  2. 回译——在推断模式(inference mode)下翻译该句子(使用共享编码器编码该句子,使用 L2 解码器进行解码),
    利用共享编码器优化对译文句子进行编码和使用 L1 解码器恢复源句子的概率。交替执行这两个步骤对 L1 和 L2 进行训练,对 L2 的训练步骤和 L1 类似。

参考