简单即是美
1.文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。
冷知识 :阿拉伯数字不是阿拉伯人发明的,而是印度人发明的
- 通信的原理和信息传播的模型
- (信源)编码和最短编码
- 解码的规则,语法
- 聚类
- 校验位
- 双语对照文本,语料库和机器翻译
- 多义性和利用上下文消除歧义性
2.自然语言处理
人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
3.统计语言模型
统计语言模型是自然语言处理的基础
To Be Continued…
模型$S=w_1,w_2,…,w_n$,利用条件概率,S这个序列出现的概率等于每个词出现的条件概率相乘。
$$P(S)=P(w_1,w_2,…,w_n)=p(w_1)p(w_2|w_1)…*p(w_n|w_1,w_2,…,w_{n-1})$$
涉及变量越多,可能性越小,越难估算
马尔可夫假设:假设任意一个词$w_i$出现的概率只同它前面的词$w_{i-1}$有关
统计语言模型的二元模型:
$$P(S)=p(w_1)*p(w_2|w_1)p(w_3|w_2)…p(w_i|w_{i-1})…*p(w_n|w_{n-1})$$
$p(w_i|w_{i-1})=$
I'm so cute. Please give me money.
- 本文链接:https://wentianhao.github.io/2020/09/21/%E6%95%B0%E5%AD%A6%E4%B9%8B%E7%BE%8E/
- 版权声明:本博客所有文章除特别声明外,均默认采用 许可协议。
若没有本文 Issue,您可以使用 Comment 模版新建。