C罗

这位33岁的葡萄牙头号球星,面对劲敌西班牙队,独中三元,以一己之力拯救了整个国家队,为球队拿下宝贵的一个积分,瞬间就炸翻了全世界的朋友圈!

神奇的冰岛

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
根据最新的人口统计结果
冰岛全国只有332529人

减去女性165259人
减去18岁以下的男性40549人
减去35岁以上的男性82313人
再减去太胖不适合踢球的22136人

剩下的冰岛男性中
有1246人忙着观鲸旅游业
314人忙着监测地震
164人忙着观测火山
1934人忙着放羊
1464人忙着剪羊毛

而剩下的冰岛男人中
有23位银行家在坐牢
194人是盲人
7564人有病在身
还有564人在医院、消防队等工作
实在走不开

还剩下的冰岛男人中
有两位队医
有两位帮着球场送水
7人在帮助运营球队
除了要看球的球迷
最后冰岛全国就只剩下23人
他们都在哪?

全部入选了冰岛国家队

因为冰岛劳动力少,运动员人数就更少,所以几乎全队上下都有兼职。
除了门将哈尔达松是一位拍摄MV和广告的导演以外,据媒体报道——

1
2
3
4
5
6
主力右边锋格维兹蒙松是一名优秀的电竞玩家
中场(队长)贡纳尔松是一名手球运动员
中场西于尔兹松是房地产公司老板
主力右后卫塞瓦尔松曾经差点当了飞行员
中后卫奥德纳松是美国阿德尔菲大学攻读企业管理硕士学生
后卫沙瓦臣是一名普通工人

就连他们的主教练,也是来兼职的,在不踢球的时候,他是一名牙医。

【2018世界杯】葡萄牙 - C罗

首场:葡萄牙 VS 西班牙

开场第4分钟,C罗突入禁区左侧在纳乔防守下倒地,主裁判果断判罚点球,C罗亲自操刀主罚命中!

第44分钟,葡萄牙中场右路起长传,格德斯禁区弧顶得球后分给C罗,C罗起脚远射,德赫亚关键时刻黄油手,皮球滚入网窝。

第88分钟,葡萄牙获得禁区弧顶任意球机会,C罗主罚标志性轰门,皮球越过人墙急速下坠后飞入球门右侧,比分定格在3 : 3。C罗把葡萄牙在悬崖边上拽了回来。

C罗牛逼,西班牙的守门员是不是也有点水?看人家冰岛守门员多厉害。

冰岛 VS 尼日利亚,输了两球。

参考

【2018世界杯】梅西

阿根廷 - 梅西

首场: VS 冰岛

1:1

阿根廷防守是豆腐渣工程。马拉多纳也在现场

在昨晚小组赛阿根廷vs冰岛的比赛中,第19分钟,阿圭罗在禁区内爆射得分;4分钟后,芬博阿松禁区内混战破门,打入冰岛世界杯历史首个进球。

第63分钟,梅西主罚点球,却被冰岛守门员哈尔多松神勇扑出,最终冰岛1:1逼平阿根廷!

其他人看梅西一个人干活,很形象。

C罗的点球进了,梅西的被扑了
C罗的任意球进了,梅西的打偏了
C罗的远射进了,梅西再次射偏
C罗带球突破,梅西迷失在冰岛的森林中

每次球到梅西才能发动进攻。阿根廷太容易被防守了。

参考

【语言模型】n-gram

简介

n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:

当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率

假设词表的大小为100,000,那么n-gram模型的参数数量为

n越大,模型越准确,也越复杂,需要的计算量越大。最常用的是bigram,其次是unigram和trigram,n取≥4的情况较少。

n-gram中的back off

backuoff penalty

bigram模型的计算

bigram的最大似然估计:

$$P_{MLE}(w_i|w_{i-1})={count(w_{i-1},w_i) \over count(w_{i-1})}$$

这其中需要统计bigram词频$count(w_{i-1},w_i)$和unigram词频$count(w_{i-1})$。

示例

通过统计9222个句子,得到:

bigram统计量(词频)

bigram概率

unigram统计量(词频)

根据unigram统计量进行归一化得到概率

这个例子中,i一共出现了2533次,其中i want 出现827次。归一化后的概率为827/2533=0.33

模型怎么存?

模型存的是什么?

  • n-gram概率?还是原始的n-gram词频?
  • 按照稀疏矩阵存?还是全矩阵?

实践技巧

所有的操作在log空间

  • avoid underflow
  • (also adding is faster than multiplying)
  • 回退 backoff
  • smooth

回退

revisit

ngram是基于统计的还是基于学习的?优化

  • 因为ngram的最大似然估计,最优解是解析解,因此无需优化。统计和学习不冲突?

参考

自然语言处理 - 从规则到统计

语言

字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单元。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法

我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他就可以用这门语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。

基本名词

  • 文法、语法 Grammer
  • 文法包括词法和句法
  • 词法主要研究词的内部结构,包括变形、构词法。又称形态学(Morphologic)
  • 句法研究句子结构成分的相关关系
  • 上下文无关文法 (Context Independent Grammar),比如程序设计语言。计算复杂度大约是句子长度的2次方
  • 上下文有关文法 (Context dependency Grammar),比如自然语言。计算复杂度大约是语句长度的6次方。

自然语言理解

  • 人是怎样理解语言的?
  • 机器能否像人一样理解语言?

今天,机器翻译和语音识别已经做得不错,但大部分这个领域之外的人依然错误地认为这两个应用是靠计算机理解了自然语言而完成的。事实上,它们全都靠得是数学,更准确地说是靠统计

门派

  • 基于规则的:专家根据自己的经验 人工撰写规则。
    • 背景:
    • 优点:设计规则,简单有效。
    • 缺点:费时费力;规则不能覆盖各种语言现象
  • 基于统计的:
    • 背景:上个世纪80年代后期,机器学习算法被引入到自然语言处理中,这要归功于不断提高的计算能力。
    • 优点:相对基于规则的方法,更鲁棒
    • 缺点/局限性:data-driven,强烈依赖数据,需要大规模的训练语料。计算能力

基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。

今天几乎不再有科学家宣称自己是基于规则方法的捍卫者。而自然语言处理的研究也从单纯的句法分析和语义理解,变成了非常贴近应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取等等。

上面是什么意思?从无监督学习变成了有监督学习?贬低语义理解?

门派斗争

  • 基于统计的方法只能处理浅层的自然语言处理问题,无法进入生层次的研究

基于规则的自然语言处理

语法规则(Gramar Rules)、词性(Part of Speech)、构词法(Morphologic)等,这些规则是人类学习语言(尤其是外语)的好工具。而恰恰这些语法规则又很容易用计算机的算法描述,这就更坚定了大家对基于规则的自然语言处理的信心。

语法树太复杂

基于统计的自然语言处理

由于计算量十分庞大,在20世纪70年代,基于规则的句法分析很快走到了尽头

1970年以后统计语言学的出现使得自然语言处理重获新生。
当时,基于统计的方法核心模型是通信系统加隐马尔科夫模型这个系统的输入和输出都是一维的符号序列,而且保持原有的次序(即sequence labeling问题)。最早获得成功的是语音识别,接下来是磁性分析。

但是在句法分析中,输入时一维的句子,输出是二维的分析树。在机器翻译中,输出的次序会有很大的变化(翻译不再是sequence labeling问题)。HMM就不太管用了。1988年,IBM的Peter Brown等人提出了基于统计的机器翻译方法,框架是对的,但是效果很差,因为当时既没有足够的数据,也没有足够强大的模型来解决不同语言语序颠倒的问题

参考

  • 《数学之美》 | 吴军
  • 《》