简单即是美

1.文字和语言 vs 数字和信息

文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。

冷知识 :阿拉伯数字不是阿拉伯人发明的,而是印度人发明的

  • 通信的原理和信息传播的模型
  • (信源)编码和最短编码
  • 解码的规则,语法
  • 聚类
  • 校验位
  • 双语对照文本,语料库和机器翻译
  • 多义性和利用上下文消除歧义性

2.自然语言处理

人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。

3.统计语言模型

统计语言模型是自然语言处理的基础

To Be Continued…

模型$S=w_1,w_2,…,w_n$,利用条件概率,S这个序列出现的概率等于每个词出现的条件概率相乘。

$$P(S)=P(w_1,w_2,…,w_n)=p(w_1)p(w_2|w_1)…*p(w_n|w_1,w_2,…,w_{n-1})$$

涉及变量越多,可能性越小,越难估算

马尔可夫假设:假设任意一个词$w_i$出现的概率只同它前面的词$w_{i-1}$有关

统计语言模型的二元模型:
$$P(S)=p(w_1)*p(w_2|w_1)p(w_3|w_2)p(w_i|w_{i-1})…*p(w_n|w_{n-1})$$

$p(w_i|w_{i-1})=$