漫谈人工智能 -6park.com

[返回哲学世界首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

漫谈人工智能

送交者: 半山清溪[★★人民共和★★] 于 2021-09-18 18:38 已读 16071 次

半山清溪的个人频道

+关注

趁着版里聊AI的热度，把我这篇几年前的旧文拿出来晒晒，虽然有点霉味，但大致还没完全过时。我在文末再加入一些我当前的想法。

最近几年，特别是阿尔法狗击败李世石之后，人工智能一下火了。围棋被认为是所有棋类游戏的最后堡垒，其复杂性唯有人类可以驾驭，也被机器攻克了。人工智能随即成为大众口中的时髦词汇，大有聊天不扯两句人工智能就跟不上时代的形势。但其实人工智能不是一个新概念，在计算机发明之初，人工智能的理论已经开始建立，英国数学家图灵被公认为人工智能之父。
从人工智能诞生到现在几十年时间里，它其实已经经历了春季式萌芽，夏季式火热，和冬季式严寒。人工智能上一次火热是二十多年前，深蓝击败卡斯帕罗夫。当时这个事件对大众的冲击远远超过阿尔法狗，毕竟是机器第一次在如此复杂的游戏中击败人类冠军。但是在那之后，人工智能陷入沉寂，主要原因是在商业应用中，人们发现其故事很光鲜而现实很骨感。随后人工智能局限在学术研究的小圈子里，不被大众关注，直到阿尔法狗又重新吸引了大众的目光。
说了半天，对于业界外的人士，到底什么是人工智能呢？所谓人工智能，即Artificial Intelligence（AI）。有些书或文章介绍AI时会说是模仿人类智能，我觉得不全面，AI应该是人造智能，不局限于人类的智能。任何生物，如果有像大脑一类的信息处理器官，就会有智能。已经有很多研究表明，动物在某些方面有超于人类的智能，比如信鸽在图像识别方面的能力超过人类，它可以被训练从组织切片图像中区分恶性和良性肿瘤，准确性远高于受训多年的医师。我觉得Machine Intelligence即机器智能更能清楚定义，并和生物智能区分。
如果抛开复杂的数学公式，AI的工作原理十分简单，大体分为基于知识和不基于知识。基于知识（konwledge-based）也可以称为基于规则（rule-based），即如果你对于一个任务有全部的知识，可以制定一整套规则。就如同你已经有一张地图，不管你要从地图的任何一个地点去另一个地点，都可以转化为一组规则，指导你行动。深蓝就是基于这样的原理。目前有些医疗产品也是基于这个原理，把医学知识转化成规则，通过病人的症状进行诊断。但是这种智能的几个问题，一是对于复杂任务，我们不可能有完备的知识，二是对于实际问题如医疗诊断，不像棋类游戏，观测数据往往存在误差，基于规则的智能普遍缺乏统计意义。这是AI上一个寒冬的主要原因。
不基于知识（non-knowledge-based）也可以称为数据驱动（data-driven），它依赖的是对数据的统计分析，其中最重要的一个方法就是机器学习，Machine Learning。我们今天不贪多，改天再详细漫谈机器学习。我们现在只需要知道，机器通过已有数据学习一定的规则，这叫训练；然后对未知数据作出判断，这叫预测或者推导。这种判断包括聚类，分类和回归，详细解释放在下一篇。重点是，机器训练前，除了杂乱无章的数据什么规则都不懂。在训练的过程中，学习算法可以“发现”隐藏在数据下的“潜规则”并建立模型。训练之后，模型就可以把学习到的“潜规则”用于分析未知数据。由于数据驱动的方法天然对数据的渴求，数据采集和处理的能力就决定了这种方法能否广泛应用。目前，互联网时代，海量数据出现（这里又有了大数据概念，留待以后再细说），数据采集已经不再是困难，瓶颈在于数据处理能力。数据处理又有两方面的困难：处理算法（软件）和处理芯片（硬件）。阿尔法狗的成功就是软硬两方面的成功。
以我在行业内十几年的经验来看，AI其实才刚刚起步。现在AI产品如雨后春笋般出现，一定是泥沙俱下，良莠不齐，但随着时间推移，优胜劣汰，AI技术会从根本上改变我们的生活，说AI是第四次科技革命一点都不过分。作为AI的技术工作者也常常会被问机器是否会取代人类的问题，我的观点是：不是取代而是融入。未来人类一定是机器与生物的混合物，不管是以内部植入还是外部佩戴的方式，机器会成为人类的一部分，这不是Science Fiction。

PS：成文仓促，还请同行斧正。
14/11/2018 于伦敦

补充：
我认为智能，不管是机器智能还是生命智能都包括两方面，一方面是硬条件即大脑结构/模型结构，另一方面就是软条件即经验/数据。对于生命智能，比如人，有些能力是本能，比如饿了吃困了睡，这些不能计入到智能行为，我认为后天学习到的能力才是智能的部份。比如说人几乎没有不经过学习就能掌握文字的，而狗的大脑结构决定了它再如何学习也无法掌握文字，但是狗可以通过训练理解基本指令比如坐下趴下，而更低等的生物连这个能力也没有。再比如机器智能，比如深度网络的结构一旦定了，这个网络的容量就定了，在不考虑数据的局限时，网络容量越大学习能力越强；但如果不给任何数据训练，不管什么网络都没用，都无法完成任务。

智能还包含了记忆和遗忘，这是由事物的发展规律决定的，即万事万物都是在不停地发展变化的。生命智能，排除自然的遗忘（我们知道人类的学习曲线，自然状况下第二天会忘记第一天所学内容的80%），一方面因为事物发展变化，生物体必须适应变化，遗忘过时的经验；另一方面，生物体认知也是发展的，比如人之前认为地球是宇宙中心，随着认知提高，这些陈旧的知识要被更新。机器智能也同样需要遗忘来适应动态的环境，在很多算法中都有遗忘因子，这是个hyper-parameter，需要手动调整决定有多少过去的经验/数据要被遗忘。根据实际情况，动态因素大遗忘因子就大些，动态因素小遗忘因子就小些。还有些算法，会把遗忘因子作为parameter放到自适应机制中自动调整。假设机器要解决的问题没有动态因素，即数据的统计特性不会随时间变化，那算法则不需要遗忘。因此，我们可以看出遗忘不是目的而是手段。
机器比人优越的地方一个是运算速度，一个是不会疲倦，最重要的一个是能处理复杂情况。据研究现实人类对超过5个因子/变量的复杂问题，作出正确决策的能力非常低，机器虽然也有curse of dimensionality，但远远超过5个。但是人类比机器的优势在于人类对信息的综合能力超过机器（至少是目前情况），即现在始终没有一个general-purpose的机器问世。还有一个问题就是机器学习的分类受限于门限，门限是个相对量不是绝对量，比如图像识别，你拿一堆狗的图片作类1，一堆石头的图片作类2训练出来的模型，你给它一张椅子的图片，它很有可能把它归类为狗，因为四条腿，所以它认为离狗更近。这个例子也可以说明，训练机器是训练数据是多么重要。机器怎么学习？就拿神经网络来说，我们必须要有个代价函数即cost function，这个代价函数通常是错误率，优化这个函数让错误最小化是学习的精髓。这和我们学习之后要考试来判断学习是否正确是一个道理。

最后，对于人们对AI的恐惧心理，我想再多说两句。我们必须明白，人只是进化过程中的一环，我们现在的人类作为生物最终只有消失这一个可能，但如何消失会有几种可能，最好的可能是人进化为更为高级的生物，现代人如同人类的先祖消失在进化长河中。还有一种是大家的恐慌，即AI取代人类。其实这种恐慌完全没有必要，AI取代人类算是个不错的结局，因为AI本身就是人类文明的智慧结晶，人就是AI的造物主。我说了，机器对人有无可比拟优越性，运算速度不知疲倦不会死亡，可以去完成人类根本无法完成的任务，比如星际旅行。我们真正应该恐惧的是AI没有自主意识但是具有强大力量而被恶势力控制，并在造成人类完全毁灭前，AI都不能独立生存，那才是灾难呢。

喜欢半山清溪朋友的这个贴子的话，