简明AI基础知识

每当科技发生飞跃式进步时，我们总会陷入一个重大争议。在了解了其中哦的风险后，我们是否敢于采用强大的技术？我们别无选择，争议只是自欺欺人。AI已经到来，悲观担忧并不能保护我们免受潜在的危害。潘多拉的盒子已经打开，当我们审视其中的内容时，会发现希望永不止息。

2025.01 北京朝阳区·东三环

AI的基础

基础设施和工具

AI产品的性能和成功的关键在于管理AI流程所需要的基础设施,需要充分理解,才能将其输出集成到产品中．

机器学习与深度学习

机器学习

机器学习(ML)由两个关键部分组成:所使用的模型和用于学习的训练数据.理论上,每次重新训练模型时,模型的性能都会有所提升.如何选择、构建、调整和维护这些模型以实现最佳性能，是数据科学家和机器学习工程师的工作任务。每次使用模型时，都可以通过它与正确答案的差异来评估模型的准确性，并反复迭代，直到获得足够好的模型。每次迭代都基于具有某些模式或特征的数据构建和训练模型。

所有机器学习模型都可以分为以下四种学习类型：

监督学习
1. 数据由人工标注，机器也试图正确的标注当前或者未来的数据点
2. 应用：
  1. 分类模型：例如垃圾邮件过滤器
  2. 回归模型：寻求变量之间的关系以预测事件未来的发展趋势
3. 常用算法：
  1. 朴素贝叶斯分类器
  2. 支持向量机
  3. 线性回归模型
  4. 逻辑回归
  5. 决策树
  6. 随机森林
  7. K近邻算法
无监督学习
1. 在数据没有标记的情况下，使用机器对数据进行标记并查找尚未发现的模式
2. 应用：
  1. 聚类：将数据分成不同的组别或者类别，用于医学实验或者药物研发
  2. 降维：简化数据集、去除对性能贡献小的特征，将有用信号和噪声区分开
3. 算法：
  1. K-means聚类
  2. 主成分分析
半监督学习
1. 通过提供一些标记的数据集，加入未标记的数据集，引导模型朝着正确的方向寻找模式
强化学习
1. 通过不断试错来学习的方法，可以类比为根据权重和奖励强化正确结果的系统。
2. 从过去的经验中学习，根据自身的表现不断调整策略以达到最佳效果。
3. 主要用于机器人领域，训练机器人如何操作并适应现实中各种不可预测的情况。

深度学习

深度学习(DL)是机器学习的一个分支，但它与机器学习通常被当作不同的概念。原因是深度学习基于神经网络算法，机器学习通常基于神经网络以外的其他算法。

深度学习基于分层系统，通过特征学习或特征工程提取和学习数据中的模式或特征。深度学习工程师通常无法确定其模型是如何得出某些结论的，从而导致模型的运作方式变得不透明。这种不透明是双面的，既存在于工程师和技术人员本身，也存在于下游的客户和用户，他们无法理解模型如何做出决策的情况下，明显感受到模型带来的影响。这正是因为深度学习神经网络模拟了人类思维方式中多层神经网络的结构。

最佳流程

拥抱AI并将其应用于产品或企业内部是一项非常复杂、技术债务重、成本很高的任务。一旦确定了模型和应用场景，将AI真正应用到生产环境中会遇到种种困难。实现流程运营、更新模型、保持数据的新鲜和清洁、组织实验、进行验证、进行测试和相应的存储等，都是复杂而关键的步骤。克服这些挑战，AI才能成功应用到业务中去。

数据可用性和集中化

中央存储位置
创建数据的流水线
寻找大规模环境的廉价快速存储方案

持续维护

持续集成
持续交付
持续训练
持续监控

数据库基础

数据是AI的关键

数据库
数据仓库
数据湖
数据流水线

项目管理IaaS

部署策略

影子部署策略
A/B测试模型部署策略
金丝雀部署策略

模型开发和维护

NPD

发现阶段

定义阶段

设计阶段

实施阶段

市场营销

培训

发布

模型类型

模型训练

模型交付

选择最佳访问模型的方式
了解模型被调用的频率
确定模型运行所需要的CPU/GPU数量和内存大小
确定如何持续地向模型传输数据

在选择模型并制定部署策略时，需要考虑维持AI/ML算法在产品中持续运行所需要的时间、资金、精力和资源。

部署的最后异步时引导最终用户如何使用模型和理解其结果

模型测试和故障排除

性能管理至关重要
不仅要监控模型本身，还要持续维护相关代码和文档
模型会出现退化或漂移

唯一不变的就是变化本身，外部世界时广阔而不可预测的。任何来自外部因素的变化都可能导致各种类型的概念漂移，需要对其进行调整，重新部署模型以适应不断变化的环境。

模型更新频率的伦理规范

伦理原则

尊重自主性
预防伤害
公平性
可解释性

机器学习和深度学习剖析

传统AI

机器学习

新兴AI

深度学习-ANN（人工神经网络）

层次结构：

输入层
隐藏层
输出层

类型：

多层感知器（MLP）
径向基函数（RBFN）
卷积神经网络（CNN）
循环神经网络（RNN）
长短期记忆网络（LSTM）
生成对抗网络（GAN）
自组织映射（SOM）
深度信念网络（DBN）

可解释性

ANN结构式基于现有机器学习算法进行构建并扩展的，因此难以解释这些网络是如何得出结论的。深度学习是不透明的，ANN实际上只是微调各层神经元权重，本质上是通过数学和统计学寻找数据中的复杂模式并对其进行权重优化。

准确性

ANN的性能很大程度上取决于开始训练模型之前的数据准备工作，高性能的深度学习需要拥有足够的数据，并且确保经过清洗后的数据适合传递到ANN中。可以尝试多个不同的模型或者多个模型的组合。改善性能需要经过反复的迭代，然后不断重复。

构建AI原生产品

AI原生产品

AI产品的开发阶段

创意

AI主要用来解决以下问题：

异常检测
聚类/同类分组
分类
回归
推荐
排序

创意阶段结束的交付物：

必须确定目标结果以及必要的产品需求
MVP将如何交付给客户/用户
谁将使用MVP
将如何使用MVP
清晰地理解要解决的问题或者面临的机会

数据管理

组织和扩展支持所有数据所需要的基础设施
确定模型中使用的最佳特征
构建传输数据的数据流水线阶段

研发

AI产品的构建不能只围绕一个模型进行
管理期望，选择适当的工具、资源和利益相关者
由产品经理决定对性能或准确度的要求，而不是数据科学家

部署

部署阶段实际上是为了确保机器学习输出的内容能够持续传递和交付。这个阶段需要整理产品持续维护和交付的流程与规范。

产品团队

产品经理
AI/ML/data策略师
数据工程师
数据分析师
数据科学家
机器学习工程师
前端/后端/全栈工程师
UX设计师/研究员
客户成功
市场推广/运营团队