一、人工智能基本概念

一)人工智能、机器学习概念

1.1 人工智能

  • 人工智能(英语:Artificial Intelligence, AI)亦称机器智能,是指利用计算机来对人的意识、思维信息过程、智能行为进行模拟(如学习、推理、思考、规划等)和延伸,使计算机能实现更高层次的应用。
  • 人工智能是人们利用计算机来模拟人的意识、思维过程以及一些智能行为,以此来辅助人们进行决策、规划和判断等。说到底,它还是模拟人类,以人为基准衍生出的智能
  • 人工智能最核心的地方,还是在于其所拥有的模型。,就类似于,人最核心的地方在于人的大脑一样。那么这个模型又是怎么来的呢?我们一般的说法是,训练来的。而这个训练的过程就叫做机器学习

1.2 机器学习

  • 从数据中学习的AI叫做机器学习。机器学习是指从一系列的原始数据中提取人们可以识别的特征,然后通过学习这些特征,最终产生一个模型。
  • 机器学习的完整定义为:从一系列原始数据中提取人们可以识别的特征,然后通过学习这些特征,最终产生一个模型,成为人工智能的核心
  • 机器学习的定义中几个重要组成部分:
    1. 原始数据:原始数据一般来自于各个不同的业务系统,真实性的数据质量就成为了关键
    2. 人们可识别的特征:提取人们可以识别的特征也就是人们所说的特征工程,构成了机器学习成功与否的关键
    3. 学习特征:学习这些特征,需要依赖一些规则,也就是我们经常所说的机器学习算法
    4. 模型:,最终会产出一个模型,比如我们常见的回归模型、分类模型以及神经网络模型等
  • 总结:数据特征 + 机器学习模型 = 人工智能模型

二)人工智能系统技术架构


业界普遍将其分为三层架构,从底向上依次是基础层、技术层和应用层

  • 在基础层,主要提供了强大的计算能力和丰富的数据资源,其技术方向已经从原来基于传统数据库的集中式存储演变成为现在的基于大数据的分布式存储,提供了丰富的高质量数据资源,并且基于云计算技术提供了强大的分布式计算能力,为上层的技术层和应用层提供了可靠的基础保障。
  • 拥有了数据资源和计算能力之后,就需要有特 定的技术来处理这些数据,那么在技术层,提供了丰富的机器学习算法和运行库,以及丰富的建模能力,以保证数据能在这一层得到充分的加工和处理。
  • 当基于数据和机器学习算法训练出来一个模型之后,怎么发挥其价值呢?自然需要不同领域的业务系统来做支撑。在应用层,我们需要结合不同行业、不同领域的特定业务知识,然后基于丰富的数据源和建模平台来训练高效的模型,并且以应用系统的形式展现给用户,发挥其业务价值。

基于以上的三层架构,我们可以将AI项目的建设过程分为以下几个阶段:

  1. 在基础层实现数据收集、数据理解和数据处理
  2. 在技术层实现特征提取、模型构建、模型训练和模型评估
  3. 在应用层实现模型应用等

三)人工智能应用领域

  1. 机器视觉:模拟人类视觉系统,对生活中的一些动态信息进行处理和加工,将其处理为算法模型可以识别的特征,并将其传送给图像处理系统。(如:相机利用AI识别花的类型)
  2. 生物识别:生物特征分为静态特征和行为特征,通过计算机,与光学、声学、生物传感器、统计学的概念手段结合,利用人类固有的生理特性、行为特征进行个人身份鉴定。
  3. 遗传编码:人工智能和生物遗传基因学结合起来,人们可以充分对人类基因序列进行探索发现,以此可以进行基因预测和基因治疗。研究方向有:遗传疾病监测和治疗、遗传疾病的预测等。
  4. 机器人学:机器人是一个综合性的人工智能产品,常见的机器人具有机械手和步行结构。可以让机器人来承担人类的一些工作,比如,端茶倒水,扫地叫起床等,当然还有一些非机器人不可的工作,比如高压电下的故障检测、高温条件下的环境监控等。
  5. 专家系统:模拟人类专家解决领域问题的系统。数据库中包含大量的某个领域专家水平的知识与经验,根据用户的咨询,进行推理和判断,模拟人类专家的决策过程。(如电商证券系统的智能客服、医院的在线诊断分析等)

四)人工智能模型分类

  • 常见的机器学习算法主要分为两大阵营,包括传统机器学习和非传统机器学习
  • 传统机器学习主要应对的是结构化数据和业务相对不是很复杂的场景,比如房价预测,流失预警。而非传统机器学习主要应对的是结构化以及非结构化数据和一些传统机器学习难以解决的场景,比如图像识别、自然语言处理等。
  • 传统机器学习算法进一步细分为监督学习和非监督学习算法。常见的监督学习算法包括分类、回归、时间序列等算法,非监督学习算法包括聚类、异常检测等。
  • 非传统机器学习算法,也称之为高级算法,主要是以传统机器学习算法为基础衍生得来的,比如强化学习、迁移学习、深度学习 ,逐渐在一些复杂的业务场景下扮演着越来越重要的角色。

二、人工智能基本原理

2.1 明确项目角色(是甲方还是乙方)

对于在人工智能项目中,需要明确自身的角色,即甲方还是乙方,不同的角色需求不一样,要求不一样。

  • 对于甲方:需要专注于自身的业务,在充分理解业务的同时提出合理的需求,并且需要做好合理的时间规划
  • 对于乙方:需要在充分理解甲方业务需求的条件下,结合自身的实际情况做出合理且符合实际的评估

    在项目进行的过程中,甲方乙方需要反复的沟通,不断确认业务目标,确保每一步的进展都和预期的偏差不大。

2.2 业务沟通与业务目标确认

在和客户进行业务沟通的时候一般从以下三个方面进行入手,包括数据与目标、做法与思路、应用与评估。具体包括客户现在有哪些数据,想基于这些数据做什么事情,这个项目开始之前是怎么做的,是改进原有的系统还是新需求,之前系统的结果有什么不满意的地方需要改进和完善,当前的问题能不能用机器学习的方法来做,如果能做的话,怎么把业务问题转化为机器学习问题,如果能转化为机器学习问题的话,他们的优先级是什么样的,哪个需求是基础需求需要优先来做,哪个需求是高级需求,需要在项目二期来做,训练出来的模型用在什么系统上,怎么用,测试数据的形式是什么样子,期望达到什么效果,包括机器学习模型评估的效果和业务上达到的效果。

2.3 将业务问题转换为机器学习问题

在真正用人工智能技术解决真实业务问题之前,需要仔细回答以下问题:

  1. 是否可以用机器学习方法来做?
    • 沟通业务需求与业务目标
    • 明确是否是机器学习的范畴以及是哪种问题
  2. 如何设计开发节奏?
    • 明确人工智能建模流程
    • 预设各阶段的开发周期和检验标准
  3. 最终产品的检验标准?
    • 确定最终模型使用方式
    • 明确最终模型的效果评估方式

2.4 常规建模流程

人工智能建模流程
人工智能建模流程一般需要分为以下三个阶段,包括数据处理阶段、模型训练阶段、模型应用阶段
在数据处理阶段,首先我们需要进行数据获取,一般数据获取发生在项目初期,这时候相对比较容易一些,所以我们需要尽可能的多获取一些数据,一方面防止以需要用一些数据的时候没有数据的不利情况。另一方面,在项目已经全面开展的时候再跟客户申请数据会比较麻烦,同时申请流程也会比较复杂,会严重影响项目进度。在获得比较多数据之后,需要充分理解业务和需求确认,确定哪些数据可用,哪些数据作为后期补充,同时需要评估数据质量和业务复杂度来合理规划项目周期
以上工作做完以后,就可以开始结合数据的实际情况进行数据清洗,以提升数据质量。

特征工程 ——> 模型部署上线
我们需要进行特征提取,也就是所谓的特征工程,需要基于原始数据提取人们可以识别的衍生特征,提升训练的模型效果,最后需要将加工的不同维度的特征进行整合形成一张大宽表,为下一步的模型训练做准备。至此,我们的数据预处理 阶段就告一段落。接下来,我们需要对之前加工的特征进行描述,评估其权重,必要的时候进行特征降维,之后结合具体的业务问题,选择一个或者几个机器学习算法,通过不断调整参数反复训练模型,知道模型效果达到预期为止。
,之后要加载测试数据进行测试,防止发生过拟合问题而全然不知的情况。在模型经过评估且效果能达到预期之后,我们需要将模型进行部署上线,并且对与线上的测试结果结合业务部门进行业务解释,看是否能达到业务部门的目标,以及确认模型的迭代方式和迭代周期。
至此,整个降魔周期算是初步结束了,后面就剩下了模型迭代和系统维护工作了

2.5 模型/业务解释

三、人工智能技术发展趋势

  1. 深度神经网络:它是模仿人类大脑从图像、音频和文本数据“学习”的能力,将深度学习思想和神经网络结合起来,解开神经网络的工作原理
  2. 模糊计算:以模糊集理论为基础来模拟人脑非精准、非线性的信息处理能力。
  3. 强化深度学习:强化深度学习其实是一种神经网络,经过观察,行动和奖励来与环境进行互动学习。可以用来指定学习游戏策略,比如著名的AlphaGo程序,击败了人类围棋冠军。
  4. 生成对抗网络:生成对抗网络是一种无监督的深度学习系统,作为两个相互竞争的神经网络来实现,比如两个AlphaGO程序互相训练和测试,随着时间的推移,两个神经网络的效 果都会得到提升。
  5. 混合学习模式:现在机器学习面临的业务问题越来越复杂,有时候单一的算法或者模型无法应对,可能需要多个模型配合起来提升业务效果。
  6. 自动化机器学习:开发机器学习模型需要一个耗时和专家驱动的工作流程,其中包括数据准备、特征选择、模型或者技术选择、培训和调优。AutoML(自动机器学习)旨在使用一些不同的统计和深度学习技术来自动化这个工作流,包括自动数据清理,自动建模,自动模型优化等等。

四、人工智能典型应用场景

  1. 关联分析:啤酒与尿片
  2. 回归预测:超市和怀孕预测指数
  3. 复杂网络(图分析):基于社会网络分析团伙反欺诈
  4. 自然语言处理:文学著作与统计:红楼梦归属
  5. 深度学习:猪脸识别
  6. 神经网络:电子竞技-AI dota