README


    猪猪の联系方式:

    参考左侧一级目录(以Summary目录为准),目前已完结的部分包括

位置
目录
状态

读书笔记

特征工程

完结

自然语言

完结

神经网络

完结

SK-LEARN

有监督学习

进行中

课程系列

CDA III

完结

题库分析

完结

知识点

完结

     学习过程中一边翻译一边学习一边整理,翻译有误的勘误请提交下边的Issue地址,如果引用了外部链接内容并未著名引用地址的请作者联系我,大部分内容不是单纯的翻译,以学生视角翻译、阅读、消化、理解、整理为主。


  • 所有外置链接使用参考资料

  • 所有文章内置链接使用引用

  • 案例全部使用:「例」,隶属于它所在的章节内。

  • 类名函数名均使用代码块 xxx这种。

  • 本文目录中的二级目录只放出核心概念部分目录,和正文中目录可能不一致

    项目目录说明:

目录
内容

book/feature

特征工程专题

book/nn

神经网络专题

book/nlp

自然语言专题

sk

「译」Sk-learn官方文档(In Progress)

tf

「译」TensorFlow官方文档(Pending)

gensim

「译」Gensim官方文档(Pending)

cda

CDA课程笔记

    数据目录说明

目录
内容

book/feature

特征工程专题


CDA Level III

听课笔记记录,考试专用

1. 课程部分

  1. 特征工程

    1. 数据预处理

      1. 数据过滤

      2. 缺失值填补

      3. 编码转换

    2. 特征工程

      1. 特征构建

        1. 多项式特征

        2. 交互特征

      2. 特征选择

        1. 无效变量

        2. 统计方式

        3. 高度相关性

        4. 模型方式

        5. 递归方式

      3. 特征转换

        1. 线性:PCA

        2. 线性:SVD/TSVD

        3. 线性:NMF

        4. 线性:LDA

        5. 非线性:Kernel PCA

        6. 非线性:T-SNE

        7. 非线性:神经网络

      4. 特征学习

        1. 类别:关联规则为基础

          1. CAM

        2. 数值:神经网络为基础

        3. 深度学习:AE

          1. VAE

          2. DAE

          3. SAE

          4. RBM:受限玻尔兹曼机

        4. 词嵌入为基础

  2. 自然语言

    1. 应用

      1. 文字云

      2. 文件分类

      3. 情感分析

      4. 文件聚类

      5. 文章摘要

    2. 分词

      1. 法则式:全切分

      2. 法则式:FMM/BMM

      3. 法则式:BiMM

      4. 统计式:N-Gram概率模型

      5. 统计式:HMM概率模型

    3. 词性标注

      1. Jieba

      2. 关键词提取

    4. 信息检索

      1. 全文扫描(Full-Text Scanning)

      2. 逐项反转(Inversion of Terms)

      3. 签名文件(Signature File)

      4. 向量空间模型(Vector Space Model)

      5. 概率式检索模型(Probabilistic Retrieval Model)

      6. 神经网络模型(Neural Network Model)

    5. 非结构转结构

      1. 词袋模型:BoW

      2. 非监督词嵌入:Glove

        1. PCA

        2. SVD

        3. Glove

      3. 监督词嵌入:Word2Vec

        1. Skip-Gram

        2. CBOW

  3. 神经网络

    1. 基础知识

      1. 感知机模型

      2. 多层感知机

      3. 输出层设计

    2. BP神经网络

    3. 深度学习

      1. DNN

      2. DNN优化

      3. CNN

      4. RNN

  4. 支持向量机

    1. 线性可分支持向量机

    2. 线性不可分支持向量机

  5. 集成学习

    1. 模型融合

      1. 多数法

      2. 平均法

      3. 加权平均

      4. 堆叠

      5. 混合

    2. 机器学习元算法

      1. Bagging

      2. Random Forest

      3. Boosting

      4. GBDT

  6. 决策树

    1. 分类树

      1. ID3

        1. Gain Information

      2. C4.5

        1. 剪枝

        2. Gain Ratio

      3. CART

        1. Gini Index

      4. CHAID分类树

    2. 回归树

      1. CART回归树

    3. 决策规则

      1. PRISM规则

  7. 聚类

    1. 层次聚类

      1. Single Link

      2. Complete Link

      3. Average Linkage

      4. Centroid Method

      5. Ward's

    2. 划分聚类

      1. K-Means

      2. Algorithem PAM

      3. SOM

    3. 模糊聚类

      1. EM

    4. 密度聚类

      1. DBSCAN

  8. 模型评估

    1. 数据集切割

      1. 分层抽样

      2. 交叉验证

    2. 分类评估

      1. 混淆矩阵

      2. 多分类F1

    3. 整体评估

      1. K-S

      2. ROC

      3. Gini

      4. Response Chart

      5. Gain Chart

      6. Lift Chart

    4. 回归评估

      1. Adjust R Square

  9. 计算题知识点

    1. 支持度/置信度/提升度

    2. 杰卡德Jaccard

    3. 频繁项集

    4. Gini Index计算

    5. 贝叶斯公式

    6. 混淆矩阵

    7. F1计算(多分类)

    8. 多项式特征

2. 考题解析

3. 知识点

  1. Transformer模型

    1. Attention背景

      1. Simple RNN

      2. Contextualize RNN

      3. Contextualize RNN with Soft Align

    2. 注意力机制

      1. 点积Attention

      2. Query,Key,Value

      3. 解码器Decoder端的Mask

    3. Transformer模型

      1. Feed Forward Network

      2. Positional Encoding

      3. Layer Normalization

  2. ELMO,BERT,GPT

    1. ELMO

    2. BERT

    3. GPT

  3. 正则化之L1,L2

    1. L0/L1范数

    2. L2范数

  4. 距离详解

    • 关于距离

      • 闵尔科夫斯基 Minkowski

      • 曼哈顿距离 Manhattan

      • 欧几里得距离 Euclidean

      • 切比雪夫距离 Chebyshev

      • 马氏距离 Mahalanobis

      • 汉明距离 Hamming

      • 杰卡德距离 Jaccard

      • 编辑距离 Levenshtein

      • 余弦距离 Cosine Similarity

      • 皮尔森相关系数 Pearson Correlation Coefficient

      • K-L散度 Kullback-Leibler Divergence

    • 距离计算

      • KD Tree

      • Ball Tree

    • 「例」改进约会网站配对效果

    • 「例」手写识别系统


进阶资料

(非考试资料,重建中……)


TensorFlow 2.0

1. 「基础」Karas机器学习基础

2. 「基础」加载和预处理数据

  1. 更多方式

    1. Unicode

    2. 子词分词化

3. 自定义

4. 分布式训练

5. 图像

6. 文本

7. 音频

8. 结构化数据

9. 生成式

10. 模型理解

11. 强化学习

12. ts.Estimator


特征工程专题

  1. 数值空间

    1. 对数变换

    2. 特征缩放

      1. Min-Max

      2. Z-Score

    3. 特征选择

      1. 过滤式

      2. 包裹式

      3. 嵌入式

  2. 文本数据

    1. 元素袋

      1. 词袋

      2. n元词袋

    2. 过滤技术

      1. 停用词

      2. 基于频率过滤

      3. 词干提取

    3. 意义单位

      1. 解析和分词

      2. 使用搭配提取

  3. 词袋到TF-IDF

    1. TF-IDF原理分析

    2. TF-IDF比对

      l2l^2
  4. 分类变量

    1. 编码

      1. 独热编码

      2. 虚拟编码

      3. 效果编码

    2. 大型分类

      1. 特征散列化

      2. 分箱计数

        1. 处理稀有类

        2. 防数据泄漏

        3. 无界计数

  5. 数据降维:PCA

    1. 数学推导

      1. 线性投影

      2. 方差和经验方差

      3. 主成分:第一种表示

      4. 主成分:矩阵-向量

      5. 主成分通用解

      6. 特征转换

      7. 实现步骤

    2. ZCA


自然语言专题

1. Gensim 4.0.0

  1. 核心概念

    1. 文档Document

    2. 语料库Corpus

    3. 向量Vector

    4. 模型Model

  2. 语料库和向量空间

    1. 从字符串到向量

    2. 流式语料库——一次一个文档

    3. 语料库格式

    4. 和NumPy/SciPy兼容

  3. 话题和转化

    1. 创建语料库

    2. 有效转换

  4. 相似查询

    1. 创建语料库

    2. 相似性接口

2. 教程部分

  1. 处理文本的机器

    1. NLP基础

    2. 分词

      1. 词干还原

      2. 构建词汇表

      3. 情感

    3. 数学

      1. 词袋

      2. 向量化

      3. 齐普夫定律

        1. TF-IDF

        2. 相关度排序

  2. 词频背后

    1. 词频到主题

      1. TF-IDF向量/词形归并

      2. 主题向量

      3. LDA/LDiA分类器

    2. 潜在语意分析LSA

    3. 奇异值分解

    4. 主成分分析

    5. 潜在狄利克雷分布:LDiA

    6. 相似度/距离计算

  3. 神经网络基础

    1. 感知机模型

  4. Word2Vec,词向量推理

    1. 词向量推理

    2. Word2Vec表示

      1. Skip-Gram

      2. CBOW

    3. GloVe

    4. fastText

  5. 神经网络深入

    1. CNN(卷积神经网络)

    2. RNN(循环神经网络)

    3. LSTM(长短期记忆网络)

    4. 序列到序列


神经网络专题

  1. 机器学习

    1. 学习准则——损失函数

      1. 0-1损失函数

      2. 平方损失函数

      3. 交叉熵损失函数

      4. Hinge损失函数

    2. 学习准则——风险最小化

      1. 过拟合

      2. 欠拟合

    3. 学习准则——优化算法

      1. 梯度下降法

      2. 提前停止

      3. 随机梯度下降

      4. 小批量梯度下降

    4. 线性回归——参数学习

      1. 经验风险最小化

      2. 结构风险最小化

      3. 最大似然估计

      4. 最大后验估计

    5. 理论

      1. PAC学习定理

      2. 没有免费午餐定理

      3. 奥卡姆剃刀原理

      4. 丑小鸭定理

      5. 归纳偏置

  2. 线性模型

    1. 线性判别

      1. 二分类

      2. 多分类

    2. 常用判别函数

      1. Logistic回归

      2. Softmax回归

      3. 感知器

      4. 支持向量机

  3. 前馈神经网络

    1. 神经元

      1. Sigmoid函数

      2. ReLU函数

      3. Swish函数

      4. GELU函数

      5. Maxout单元

    2. 前馈网络

    3. 记忆网络

    4. 反向传播算法

    5. 自动梯度计算

      1. 数值微分

      2. 符号微分

      3. 自动微分

  4. 卷积神经网络

    1. 数学性质

      1. 交换性

      2. 导数

    2. 网络结构

      1. 卷积层

      2. 池化层(汇聚层)

    3. 典型卷积网络

      1. LaNet-5

      2. Alex-Net

      3. Inception(GoogLeNet)

      4. 残差网络

    4. 其他卷积方式

      1. 转置卷积(反卷积)

      2. 空洞卷积(膨胀卷积)

  5. 循环神经网络

    1. 网络记忆

      1. 延时神经网络

      2. 自回归模型

      3. 循环神经网络

    2. 简单循环网络

    3. 机器学习应用

      1. 序列到类别

      2. 序列到序列(同步)

      3. 序列到序列(异步)

    4. 参数学习

      1. BPTT

      2. RTRL

    5. 基于门控RNN

      1. LSTM

      2. GRU

    6. 深层神经网络

      1. 堆叠循环神经网络

      2. 双向循环神经网络

    7. 图结构

      1. 递归神经网络(有向图)

      2. 图神经网络

  6. 网络优化

    1. 优化算法

      1. 小批量梯度下降

      2. 批量大小选择

    2. 学习率调整

      1. 学习率衰减

      2. 学习率预热

      3. 周期学习率调整

      4. AdaGrad

      5. RMSprop

      6. AdaDelta

    3. 梯度估计修正

      1. 动量法

      2. Nesterov加速梯度

      3. Adam算法

      4. 梯度截断

    4. 参数优化

      1. 预处理

      2. 归一化

        1. Min-Max

        2. Z-Score

        3. 白化

      3. 逐层归一化

        1. 批量归一化

        2. 层归一化

        3. 权重归一化

        4. 局部响应归一化

    5. 超参数和正则化

      1. 超参数

        1. 网格搜索

        2. 随机搜索

        3. 贝叶斯优化

        4. 动态资源分配

        5. 神经架构搜索

      2. 正则化

        1. l1,l2正则化

        2. 权重衰减

        3. 提前停止

        4. 丢弃法

        5. 数据增强

        6. 标签平滑

  7. 注意力机制/外部记忆

    1. 注意力机制

      1. 硬性注意力

      2. 键值注意力

      3. 多头注意力

      4. 结构化注意力

      5. 指针网络

    2. 自注意力网络

    3. 增强记忆神经网络

      1. 端到端

      2. 神经图灵机

    4. Hopfield网络

  8. 无监督学习

    1. 无监督特征学习

      1. 主成分分析PCA

      2. 稀疏编码

      3. 自编码器

      4. 稀疏自编码器

      5. 堆叠自编码器

      6. 降噪自编码器

    2. 概率密度估计

      1. 参数密度估计

      2. 非参数密度估计


XGboost专题

RPA认证考试

K-RPA工程师KCRA系列课程

最后更新于

这有帮助吗?