README
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
猪猪の联系方式:
主页:
邮箱:
微信号/QQ号:445191171
参考左侧一级目录(以Summary目录为准),目前已完结的部分包括
读书笔记
特征工程
完结
自然语言
完结
神经网络
完结
SK-LEARN
有监督学习
进行中
课程系列
CDA III
完结
题库分析
完结
知识点
完结
学习过程中一边翻译一边学习一边整理,翻译有误的勘误请提交下边的Issue地址,如果引用了外部链接内容并未著名引用地址的请作者联系我,大部分内容不是单纯的翻译,以学生视角翻译、阅读、消化、理解、整理为主。
所有外置链接使用参考资料。
所有文章内置链接使用引用。
案例全部使用:「例」,隶属于它所在的章节内。
类名函数名均使用代码块 xxx
这种。
本文目录中的二级目录只放出核心概念部分目录,和正文中目录可能不一致。
项目目录说明:
book/feature
特征工程专题
book/nn
神经网络专题
book/nlp
自然语言专题
sk
「译」Sk-learn官方文档(In Progress)
tf
「译」TensorFlow官方文档(Pending)
gensim
「译」Gensim官方文档(Pending)
cda
CDA课程笔记
数据目录说明
提取码: 4tda
book/feature
特征工程专题
听课笔记记录,考试专用
数据预处理
数据过滤
缺失值填补
编码转换
特征工程
特征构建
多项式特征
交互特征
特征选择
无效变量
统计方式
高度相关性
模型方式
递归方式
特征转换
线性:PCA
线性:SVD/TSVD
线性:NMF
线性:LDA
非线性:Kernel PCA
非线性:T-SNE
非线性:神经网络
特征学习
类别:关联规则为基础
CAM
数值:神经网络为基础
深度学习:AE
VAE
DAE
SAE
RBM:受限玻尔兹曼机
词嵌入为基础
应用
文字云
文件分类
情感分析
文件聚类
文章摘要
分词
法则式:全切分
法则式:FMM/BMM
法则式:BiMM
统计式:N-Gram概率模型
统计式:HMM概率模型
词性标注
Jieba
关键词提取
信息检索
全文扫描(Full-Text Scanning)
逐项反转(Inversion of Terms)
签名文件(Signature File)
向量空间模型(Vector Space Model)
概率式检索模型(Probabilistic Retrieval Model)
神经网络模型(Neural Network Model)
非结构转结构
词袋模型:BoW
非监督词嵌入:Glove
PCA
SVD
Glove
监督词嵌入:Word2Vec
Skip-Gram
CBOW
基础知识
感知机模型
多层感知机
输出层设计
BP神经网络
深度学习
DNN
DNN优化
CNN
RNN
线性可分支持向量机
线性不可分支持向量机
模型融合
多数法
平均法
加权平均
堆叠
混合
机器学习元算法
Bagging
Random Forest
Boosting
GBDT
分类树
ID3
Gain Information
C4.5
剪枝
Gain Ratio
CART
Gini Index
CHAID分类树
回归树
CART回归树
决策规则
PRISM规则
层次聚类
Single Link
Complete Link
Average Linkage
Centroid Method
Ward's
划分聚类
K-Means
Algorithem PAM
SOM
模糊聚类
EM
密度聚类
DBSCAN
数据集切割
分层抽样
交叉验证
分类评估
混淆矩阵
多分类F1
整体评估
K-S
ROC
Gini
Response Chart
Gain Chart
Lift Chart
回归评估
Adjust R Square
支持度/置信度/提升度
杰卡德Jaccard
频繁项集
Gini Index计算
贝叶斯公式
混淆矩阵
F1计算(多分类)
多项式特征
Attention背景
Simple RNN
Contextualize RNN
Contextualize RNN with Soft Align
注意力机制
点积Attention
Query,Key,Value
解码器Decoder端的Mask
Transformer模型
Feed Forward Network
Positional Encoding
Layer Normalization
ELMO
BERT
GPT
L0/L1范数
L2范数
关于距离
闵尔科夫斯基 Minkowski
曼哈顿距离 Manhattan
欧几里得距离 Euclidean
切比雪夫距离 Chebyshev
马氏距离 Mahalanobis
汉明距离 Hamming
杰卡德距离 Jaccard
编辑距离 Levenshtein
余弦距离 Cosine Similarity
皮尔森相关系数 Pearson Correlation Coefficient
K-L散度 Kullback-Leibler Divergence
距离计算
KD Tree
Ball Tree
「例」改进约会网站配对效果
「例」手写识别系统
(非考试资料,重建中……)
Unicode
子词分词化
对数变换
特征缩放
Min-Max
Z-Score
特征选择
过滤式
包裹式
嵌入式
元素袋
词袋
n元词袋
过滤技术
停用词
基于频率过滤
词干提取
意义单位
解析和分词
使用搭配提取
TF-IDF原理分析
TF-IDF比对
编码
独热编码
虚拟编码
效果编码
大型分类
特征散列化
分箱计数
处理稀有类
防数据泄漏
无界计数
数学推导
线性投影
方差和经验方差
主成分:第一种表示
主成分:矩阵-向量
主成分通用解
特征转换
实现步骤
ZCA
文档Document
语料库Corpus
向量Vector
模型Model
从字符串到向量
流式语料库——一次一个文档
语料库格式
和NumPy/SciPy兼容
创建语料库
有效转换
创建语料库
相似性接口
NLP基础
分词
词干还原
构建词汇表
情感
数学
词袋
向量化
齐普夫定律
TF-IDF
相关度排序
词频到主题
TF-IDF向量/词形归并
主题向量
LDA/LDiA分类器
潜在语意分析LSA
奇异值分解
主成分分析
潜在狄利克雷分布:LDiA
相似度/距离计算
感知机模型
词向量推理
Word2Vec表示
Skip-Gram
CBOW
GloVe
fastText
CNN(卷积神经网络)
RNN(循环神经网络)
LSTM(长短期记忆网络)
序列到序列
学习准则——损失函数
0-1损失函数
平方损失函数
交叉熵损失函数
Hinge损失函数
学习准则——风险最小化
过拟合
欠拟合
学习准则——优化算法
梯度下降法
提前停止
随机梯度下降
小批量梯度下降
线性回归——参数学习
经验风险最小化
结构风险最小化
最大似然估计
最大后验估计
理论
PAC学习定理
没有免费午餐定理
奥卡姆剃刀原理
丑小鸭定理
归纳偏置
线性判别
二分类
多分类
常用判别函数
Logistic回归
Softmax回归
感知器
支持向量机
神经元
Sigmoid函数
ReLU函数
Swish函数
GELU函数
Maxout单元
前馈网络
记忆网络
反向传播算法
自动梯度计算
数值微分
符号微分
自动微分
数学性质
交换性
导数
网络结构
卷积层
池化层(汇聚层)
典型卷积网络
LaNet-5
Alex-Net
Inception(GoogLeNet)
残差网络
其他卷积方式
转置卷积(反卷积)
空洞卷积(膨胀卷积)
网络记忆
延时神经网络
自回归模型
循环神经网络
简单循环网络
机器学习应用
序列到类别
序列到序列(同步)
序列到序列(异步)
参数学习
BPTT
RTRL
基于门控RNN
LSTM
GRU
深层神经网络
堆叠循环神经网络
双向循环神经网络
图结构
递归神经网络(有向图)
图神经网络
优化算法
小批量梯度下降
批量大小选择
学习率调整
学习率衰减
学习率预热
周期学习率调整
AdaGrad
RMSprop
AdaDelta
梯度估计修正
动量法
Nesterov加速梯度
Adam算法
梯度截断
参数优化
预处理
归一化
Min-Max
Z-Score
白化
逐层归一化
批量归一化
层归一化
权重归一化
局部响应归一化
超参数和正则化
超参数
网格搜索
随机搜索
贝叶斯优化
动态资源分配
神经架构搜索
正则化
l1,l2正则化
权重衰减
提前停止
丢弃法
数据增强
标签平滑
注意力机制
硬性注意力
键值注意力
多头注意力
结构化注意力
指针网络
自注意力网络
增强记忆神经网络
端到端
神经图灵机
Hopfield网络
无监督特征学习
主成分分析PCA
稀疏编码
自编码器
稀疏自编码器
堆叠自编码器
降噪自编码器
概率密度估计
参数密度估计
非参数密度估计
K-RPA工程师KCRA系列课程
链接: