《汕头大学报》  
上一期    下一期

数据足够有资格发声吗?

——关于《大数据时代》的思考
   期次:第406、407期   作者:雒琪珊   查看:70   

  韩国九段棋手李世石1-4负于机器人 Alphago的消息仍在被各路媒体和专家解读,不论是如何高屋建瓴的开头,最后都会归于“这并不代表人工智能的胜利”这样类似末日宣言的结论。这些观点在试图抚慰恐慌的同时引起更大的恐慌,因为他们并没有解释清人工智能的核心技术是什么。
  与其说李世石选手输给了机器人,不如说他败在了数据的威力下。 Alphago内部储存了海量的棋局数据,它可以在一秒内找出与当前情况相吻合的案例,并根据李世石的历史资料预测他下一步的可能走向,最后走出自己的棋。
  这听起来完全是人与人下棋的思维模式,特别之处就在于它掌握的巨大数据量。
  即使像李世石这样的棋手,职业生涯中遇到过的棋局和套路也是有限的,这种有限还会被记忆力打个折扣。然而 Alphago不仅拥有巨大的数据量,还可以实时搜索,局面相当于无数个高手躲在一个盒子里与对面的一个人过招。从数据量的角度看,有限输给了无限,实在不是什么值得羞耻的事。
  人工智能的发展令很多人感觉到不安,是因为在依靠分析和预测的众多领域,和数据对抗无异于螳臂当车。
  这是《大数据时代:生活、工作与思维的大变革》启发我产生的全新思考角度。这本著作给了很多人关于大数据的入门级认识,它的腰封推荐词是“迄今为止全世界最好的一部大数据专著”,本书作者维克托·尔耶·舍恩伯格也被誉为 “大数据商业应用第一人”。这样的名声足够将它送到很多人的眼前了。
  维克托关于大数据有三个基本观点:1.
  不是随机样本,而是全体数据。2.不是精确 性,而是混杂性。3.不是因果关系,而是相关 关系。这三个观点阐释了大数据在被应用过 程中的特点———被整体应用、宏观应用和独 立发声。其中作者在解释第三个特点时说 到,“知道‘是什么’就够了,没必要知道‘为 什么’。在大数据时代,我们不必要非得知道 现象背后的原因,而是要让数据自己 ‘发 声’”。对于这一点,个人认为深入考虑的空 间还很大———即数据是否足够有资格发声。
  第三章中,维克托通过在线书商亚马逊 的图书推荐的例子,得出了一个结论:找到 产品之间的关联性非常重要。他进一步解释 说,“通过给我们找到一个现象的良好的关 联物,相关关系可以帮助我们捕捉现在和未 来。如果 A和 B经常一起发生,我们只需要注 意到 B发生了,就可以预测 A也发生了。”这 是一种单纯依靠相关性的逻辑。它的优势在 于借此让数据得以发声,我们在大量数据中 标记目标,挑选属性,训练数据,最终都是为 了预测。数据分析可以提供市场份额,购买 行为,但并不意味着我们因此就不要知道市 场为什么这样变化,消费者为何有某种偏 好。如果 A和 B经常一起发生的原因是 A导致 了 B,那么 B发生了, A还一定发生吗?
  大数据给了我们更好的方向,但针对性 的问题不应该被弃之不顾,而应该依靠领域 科学帮我们解决。假设这样一种情况,一种 源于大数据分析的医学疗法被证明治愈率 高达80% ,我们会选择将它广泛应用于临床 吗?恐怕不会。因为人和百分比不能相提并 论,在涉及到个体的问题上,谁都不愿意做 那个少数的百分比。如果通过病理学研究, 我们可以探究出为什么这种疗法对于少数 人不适用,那么这种“为什么”的探究就是有 意义的。因为大数据帮我们追求“大范围覆 盖”,而领域科学让我们做到了“全覆盖”。
  相关关系更符合现今社会对速度的追 求,因果关系则是一种从无序到有序的必要 逻辑。或者说,因果关系也是相关关系的一 种,区别只在于相关程度。
  认为数据并不足够有资格发声,还因为 数据不具有“人性”这项量化。数据不会撒 谎,但人性复杂。大数据只是一种资源与工 具,它告知信息但不解释,它引导人们去解 释,很自然地,就会产生误解。比如书中提到 了用数据预测嫌疑人犯罪的例子:美国30多 个州的假释委员会正在使用数据分析来决 定是释放还是继续监禁某人;越来越多的美 国城市,都采用了“预测警务”来决定哪些街 道、群体还是个人需要更严密的监控,仅仅 因为算法系统指出他们更容易犯罪。我们可 以很轻易地分辨“更容易”和“肯定”的区别, 也就不难理解在这里大数据的声音是不充 分的,它可以作为参考,但是作为答案发声, 就缺乏了人本的考量。
  我们所说的人性应该是一个复杂的概 念,它包括了一个人长期积淀的素养、养成 的性格,以及瞬间的临时反应。这些都是无 法量化的。某种行为习惯可以被数据追踪, 但促成习惯的背后力量无法用符号代替。在 这层意义上,我们必须承认数据有它力不从 心的一面,也必须意识到,人类在很多领域 不应该放弃自己发声的权力和责任。难以想 象,如果大数据过多地介入司法领域,我们 引以为豪的“无罪推定”原则还有存在的基 础吗?如果商家可以凭借以往数据就对我们 的消费行为进行预测,那不就否认了个体的 改变和发展? (14新闻 雒琪珊)

汕头大学 版权所有 

北京华文科教科技有限公司仅提供技术支持,图文与本公司无关

京ICP备12019430号-7

本期已有7579次访问,全刊已有1462711次访问