【机器翻译】- 面临的挑战

面临的挑战

NLP常见的问题

见trick-NLP

机器翻译独有的问题

歧义

自然语言中普遍存在的歧义和未知现象

  • 句法结构歧义/词汇歧义/语用歧义 …
  • 新的词汇、术语、结构、语义

机器翻译不仅仅是字符串的转换
不同语言之间文化的差异
现有方法无法表示和利用世界知识和常识

bad case

未登录词(OOV)的影响以及策略

NMT 系统为了能够控制计算的复杂度,有
着一个固定大小的词汇表,通常会将词汇表限制在 30k 到 80k 之间,这就导致了其在翻译未登录词时有着严重的不足。

对于未出现在该词汇表中的词,NMT系统用 UNK 标记来替代。结果,NMT 系统不仅无法将它们翻译准确,而且破坏了句子的结构特征

更多,见 ML/NLP/OOV

策略

长距离依赖

神经机器翻译有两个关键技术,一个是 gating,另外还有一个是 attention,这两个特别适合处理语言中长距离调序,生成的译文要比传统的方式生成的译文流利很多。

同步翻译/实时翻译

Learning to Translate in Real-time with Neural Machine Translation

多语种

机器翻译的解不唯一,而且始终存在的人为的标准

机器翻译不仅仅是字符串的转换

  • 不同语言之间文化的差异
  • 现有方法无法表示和利用世界知识和常识

翻译诗歌、散文和小说等高难度文艺作品

食品或菜单名的翻译:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|馒头:  steamed bread |  Steamed bun |
| 夫妻肺片 | Husband and wife’s lung slices | Fuqifeipian/ Spicy beef |
| 童子鸡 | Young lad chicken | Spring chicken/ Broiler chicken |


2011年,中国日报,翻译效果
原文:WASHINGTON - China and the United States have far more shared interests than differences, and nothing can hold back the momentum of cooperation, Vice-Premier Wang Qishan said on Monday. He made the remark at the opening of the third round of the China-US Strategic & Economic Dialogue in the US capital.
google翻译:华盛顿-中国和美国有更多的共同利益大于分歧,没有什么能阻挡历史的合作势头,国务院副总理王岐山周一表示。 他在中国的中美战略与经济对话在美国首都第三轮开幕时作上述表示。
SYSTRAN:华盛顿-中国和美国比区别有分享兴趣,并且什么都不能阻止合作的动量,在星期一,Wang Qishan 副总理说。 他发表了这个评论在中美战略&经济对话的第三个回合的开头在美国首都。


原文:Beijing made a third solemn representation to Manila and warned that it is hard to be optimistic about a territorial impasse over an island. Authorities say they have prepared for any escalation of the situation by Manila.
Google Translator (2012.5.8): 北京提出了第三次严正交涉,马尼拉,并警告说,这是大约一个多岛屿的领土僵局难以乐观。当局说,他们已经准备为任何升级的情况下由马尼拉。
Google Translator 2013.5.7:北京做了第三马尼拉严正交涉,并警告说,这是很难被看好在一个小岛的领土僵局。当局说,他们已经准备任何马尼拉局势升级。
SYSTRAN (2012.5.8):北京交涉第三庄严的向马尼拉并且警告是乐观对在海岛的一个领土僵局是难。 当局说他们为这个情况的所有逐步升级做准备由马尼拉。

评价标准

机器翻译的解不唯一,而且始终存在的人为的标准

【机器翻译】- 神经机器翻译 NMT

Facebook总结的很好

顺便介绍一下CNN缺陷,RNN缺陷

时序建模

见 ml/sequence

其他

通用trick

  • gated linear units
  • residual connections

模型汇总

模型 paper 出处 简介 创新点 缺陷 code
基于规则的翻译
基于短语的翻译(PBMT) IBM 1989 较复杂
seq2seq-RNN Seq2seq Learning with NN NIPS 2014 code
seq2seq-RNN Learning Phrase Representations using RNN Encoder-Decoder for SMT EMNLP2014
☆seq2seq-RNN+attention Effective Approaches to Attention-based NMT EMNLP 2015 基于高斯分布推导了Local Attention,比较了Global Align Attention和Local Align Attention, 和视频处理里面 Soft Attention 和 Hard Attention建立了联系。 code
seq2seq-attention Neural machine translation by jointly learning to align and translate ICLR 2015 RNN+attention 首次加入attention,ALIGN AND TRANSLATE
On using very large target vocabulary for neural machine translation 2015 提出词表扩大的方法
☆GNMT Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Google 2016 deep_LSTM, residual, attention, converage,subword
BPE Neural Machine Translation of Rare Words with Subword Units 2016 code-Sennrich
Character Based Neural Machine Translation 2016
Achieving open vocabulary neural machine translation with hybrid word-character models 2016
☆ConvSeq2seq paper1; paper2 Facebook 2016 code1;
☆Transformer Attention is all you need Google 2017 G-tf

扩展阅读

社会主义的本质,是解放生产力,发展生产力,消灭剥削消除两极分化,最终达到共同富裕

前面不是

“左”带有革命色彩,好像越“左”越革命。“左”的东西在我们党的历史上可怕呀!

  1. 生产可能性边界 PPF(production possibilities frontier)
    • 生产可能性边界,是指不偷懒的生产上限。
    • 线上的任何一点都实现了生产效率(productive efficiency),超出的生产是impossible
  2. 机会成本 opportunity cost
    • 如果你想catch一个opportunity,你必要要放弃的东西,give up
    • 示例:the opportunity cost of 20 more berries is one rabbit
  3. 边缘成本 marginal cost
    • marginal cost of each incremental rabbit 每增加一只兔子的机会成本,
    • the opportunity cost of one incremental unit is just the marginal cost. 一个增量单位的机会成本实际上也就是边际成本
    • 额外生产一单位的成本。比如多生产一个兔子的机会成本是20个berry
  4. 递增机会成本 incresing
    • 为什么机会递增成本在经济学模型中?
      • 一开始能打到笨兔子,笨兔子少了渐渐难度变困难了
    • 不仅仅经济学模型
      • 考试0-06很简单,98->100很难
      • 摩尔定律,扯淡吧。摩尔定律是指数级吗?多项式增量?
  5. 配置效率(allocative efficiency) & 边际效率 & 边际效益(marginal benefit)
    • B点,每天打4个兔子,100个果子,
      • 边际成本:自己亲自打一只兔子,要放弃100个果子 ()
      • 边际效益:买个兔子只愿意用20个果子 (因为余量中,兔子多,果子少。)
      • 总结:我何必去辛辛苦苦打一只兔子(消耗100果),还是去买兔子划算(20果)
      • 疑问:要考虑整个市场的供需,而不是个体吧?这里是把个体视为整个市场吗?市场上兔子多,果子少,应该果子贵啊???
    • F点,每天打0个兔子,100+80+60+40+20=300个果子
      • 边际成本:自己亲自打一个兔子,要放弃
      • 边际效益:

这里貌似涉及定价,如何定价。

经济学原理

  • 微观经济学 尼克尔森《微观经济理论:基本原理与拓展》和
  • 宏观经济学 曼昆的《宏观经济学》
  • 中级微观经济学

  • 政治经济学

#

九鼎投资公司年会音频整理

实际控制人吴刚讲话:价差是盈利的核心来源,价差包括基础价差和泡沫价差…基础价差坚持一买二,如果我们碰上运气好或者我们运作运作然后以一个泡沫高价卖给傻瓜、一群傻瓜,就是股民,一个傻瓜或一个傻逼接盘者,这就是泡沫价差,没有我们就把基础价差给赚了。

实际控制人吴刚讲话:投资成败不能寄希望于增长,只能寄希望于价差,买的便宜是赚钱的王道,…当然这不能对外讲,对外讲这不是占别人便宜吗,但赚钱就是这样的,有人吃亏你才能赚钱,就是要利用别人不对,所以你每个项目就要思考为什么能赚钱,是不是有人要犯傻,别人犯傻你就能赚钱,这就是本质。你们不要对外讲,讲了不符合社会主义价值观。接下来讲我们的赚钱方式,我们赚钱只能靠捡钱而不能靠挣钱,什么叫捡钱什么叫挣钱,我个人定义能力圈内赚钱叫捡钱,能力圈外赚钱叫挣钱,…在能力圈里做事就很轻松,…所以我们一定要坚持捡钱,只有我们轻轻松松百分之百挣钱了,凡是不轻松的钱你挣不了,天底下赚大钱的人都是捡钱赚的,没有人靠挣钱赚大钱,我堂哥就是挣钱,每天八点起床上班,天天在工地上打工搬砖但是赚不到钱,因为他不是通过捡的方式,他是真正的挣了,他没有在一个小小的能力圈里弄到极致。所以我们要有这个意识,就是捡钱,在能力圈里面把这个钱给赚了,轻轻松松,挣钱太难,我们都没有挣钱的本事,…人类和平时期的唯一战争就是赚钱。…在我们这个圈子里面,总有些傻子不太懂的哗的就撞进来了,后面我们就把他按住拿下,这样躺着就把钱赚了,这才是真正赚大钱的办法,要摒弃挣钱。

还有就是国有制企业,我们一共投了七八个,没有一个成功,在我们这是百分之百不成功比率,国有企业全世界来说都不成功,对中国来说也是不成功,你要在不成功的世界里面做特例成功很难…还有就是实际控制人为老人和女人,实际控制人为老人,老年人没动力…女的,我不是有歧视,在商业世界里,在中国做一个民营企业的老板是很不容易的,我们要克服那么多艰难困苦,说白了要用很多各种各样的手段,合法的和半合法的,这女的很难,压力太大…

大部分人只会限定思维,大部分人只会别人怎么想自己就怎么想,不独立思考,那么我们作为理性投资者就要逮住他们这些傻逼犯错误的机会,这时候我们才能赚钱。还有一种情况,就是卖的人应急卖出,有的老板借了高利贷必须要还,股份必须马上尽快卖掉,他必须马上卖一些股份给我们,他不卖给你他玩不转,趁人之危,他感恩你知道吧,清仓式甩卖,到期了必须要卖,没人愿意接这个股票他要把它续上,我们就低价买下,趁人之危,清仓型应急卖出。
还有就是合谋,私有化就是合谋,和管理团队合谋,把小组的钱赚了,等把今年业绩和明年业绩做差,股价哗哗跌,第二年第三年一丢,这就是合谋。…只有这些无效,我们才能赚钱,每一个项目都要合谋,为什么我们能赚到钱,你们现在开发项目跟进的时候就要想到这件事情,要朝这个方向去运作,只有运作那些无效机会我们才能够赚钱,或者识别或者发现无效机会。我们有一句话,就是打牌的时候,你如果没有看到谁是傻瓜,你就是傻瓜,所以你在做交易的时候,你一定要要看到谁是傻瓜,我们占了谁的便宜赚到钱,如果你都没发现,那你就是傻瓜,就是接盘侠,你就被骗了。这就是赚钱里面的基础价差。

九鼎投资定增会议音频整理

实际控制人吴刚讲话:一是我们帮你做税收策划,二是你想偷税可以继续偷税…不因为装到上市公司来它就要规范化运作,它装到上市公司来,照样不用规范化运作。…万科现在净资产七八百亿,我们比万科还大,我们有一千亿净资产,是中国第一号房地产公司。…我们只需要看看就可以了,不用评估,不需要花一分钱的审计评估费,签完协议就往上市公司装,我们不需要报证监会审批,也不需要国土资源部出什么文件。直接装就完成,百分之百就是这样的。…肯定完成,不需要任何人审批。…九鼎现在啥项目都不用做啥项目都不用投,你们整天整那些破项目弄点破钱,都是无关紧要的事,结果发现都是毛毛雨。…一个项目不投,一分钱不募,只要把这个事给我做成了就OK了。…你们募能募几个钱,投能投几个鸟项目,我这一整就是一千亿啊,永续资金啊兄弟们。