机器学习读书笔记——模型评估与选择

以下是在阅读周志华老师的《机器学习》书籍时做的笔记,同时自己也搜索了一些相关的知识,整理如下;

1. 经验误差

学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”;

我们希望得到泛化误差最小的学习器,然而我们事先并不知道新样本是什么样,实际能做的是努力使经验[……]

Read more

K均值聚类算法

0. 简介:

聚类是一种无监督的学习方式,它将相似的对象归到同一个簇中。聚类算法几乎可以应用于所有的对象,簇内的对象越相似,聚类的效果越好;

 

1. 优缺点

  • 优点:容易实现;
  • 缺点:可能收敛到局部最小值,在大规模数据上面收敛比较慢;
  • 数据:数值型数据;

&[……]

Read more

朴素贝叶斯

0. 概述

朴素贝叶斯之所以朴素是因为整个形式化过程中只做最原始、最简单的假设;

 

1. 朴素贝叶斯的优缺点:

  • 优点:在数据较少的情况下仍然有效,可以处理多类别问题;
  • 缺点:对于输入数据的准备方式较为敏感;
  • 使用数据类型:标称型数据(目前理解为离散型数据);
  • [……]

Read more

Logistic回归

这几天学习了一下Logistic回归模型,记录一下学习的历程。

1. 主要思想:

  • Logistics回归进行分类的主要思想如下:
  • 根据现有的数据对分类边界建立回归公式,以此进行分类;
  • 回归一词源于最佳拟合,表示要找到最佳拟合参数集;
  • 训练分类器的做法就是寻找最佳拟合参数;

[……]

Read more

自然语言处理中的专业名词

刚入门自然语言处理的时候,经常会弄混一些专业名词,甚为苦恼,现总结如下,以资后用。

Part-of-Speech Tagging,POS,词性标注;

Named Entity Recognition,命名实体识别;

Word Sense Disambiguation,词意消岐;

Pronou[……]

Read more