六本好书带你入门数据科学

发布时间:2019/08/05 00:00      浏览:64
作者:
来源:36Kr

如今的数据科学家经常被要求学习一系列的建模技术、运算方法等。诸如线性回归,很多人都在使用它,但却不知道为什么使用它,因此就会出现这么一种情况,很多新人随时都准备好部署模型,但却不了解实际情况,这些技术群体并没有把重心放在解决技术的盲目性上,而是放在了关于选择何种工具的争论上(R 或 Python)。


与一些数据科学家可能希望相信的相反,我们永远不可能将世界简化为数字和算法。归根结底,决策是由人类做出的,想要成为一名专业的数据科学家意味着必须既了解人性又了解数据。


请体会一下如下案例:


当美国科技公司Opower(一家致力于发掘能源数据,为用户提供节能建议的公司)想让人们节约用电时,他们向客户提供了大量关于其用电量及成本的数据。然而,仅仅靠这些冷冰冰的数字并不足以让人们做出改变。为了达到目的,Opower需要一些关于心理学及行为科学的知识,比如,研究表明,如果在家庭能源账单上用笑脸表示费用低于邻居平均水平,用皱眉表情表示高于邻居平均水平的话,人们的能源使用就会减少,也会更配合能源公司的环保要求。该市市政部门借此给随机选出的顾客发账单,将他们的能源使用量与相似家庭和最节能的邻居进行对比,并给出如何节能的建议。第二年,统计表明,高消费家庭的用户减少了3%的用电量!

当用电量比邻居少的时候,通过这种简单干预人们的电费账单的方法直接节省了数百万美元的成本,也有效防止了数百万磅的二氧化碳排放。对于一个数据科学家来说,这可能是一件令人震惊的事情——人们直接干预了统计的结果!但这对Opower的首席科学官罗伯特·恰尔蒂尼(Robert Cialdini)来说并不奇怪,毕竟他曾是一位心理学教授,还写过一些关于人类行为的书,对消费心理可谓颇有研究。Opower公司的这一举动也为市场带来一个信号:虽然你可以得到任何你想要的数据,但仍然需要了解人们的行为对数据产生的影响,而有时候后者比前者更能得偿所愿。

相比笑脸表情,柱状图也许并不是最有效的可视化方法


作为数据科学家,在日常工作和学校教育的影响下,我们其实很少考虑“人”在其中的意义,退一步讲,我们其实不会思考这份数据工作的社会影响。因此,要想做最完美的统计方案,就不仅要阅读技术类的文章,还要扩展阅读一些研究人们如何做出选择,以及如何使用数据来改进这些选择的作品,个人认为这一点至关重要。


为此,在这篇文章中,我将重点介绍6本塑造“世界观”而非“方法论”的书,其中的知识并不涉及数学和算法的讲解,但却能教会人们如何通过数据更好地为现实服务。


No.1 The Signal and the Noise 信号与噪声


作者:纳特·西尔弗(Nate Silver)


本书可能是世界上最受欢迎的与统计相关的书籍之一。信号与噪声是数据科学中一种常用的比喻手法。“信号”指的是我们想要并需要的事实,而“噪声”则是另一回事,通常指的是不相干的信息,它阻碍或误导我们搜索真实的信号。


大数据时代,海量的信息充斥在我们周围,然而随着现实中生活节奏的逐步加快,所做出的预测的速度及数量也被迫逐步增加。


然而事实却是,现实世界中的很多预测都失败了,人们为此付出了巨大的社会代价。本书检视了从飓风到地震、从经济到股市、从NBA到政治选举在内的众多领域的预测事例,旨在回答一个问题:如何才能从繁杂的海量数据中筛选出真正的信号,摒弃噪声的干扰,从而做出接近的预测。西尔弗认为,未来是没有精准的答案的,只有伟大的预言家所实践的基本法则能够帮助我们改善社会。


任何人都可以从书中提供的简单建议中获得如下经验:


像狐狸一样思考(而不是像刺猬那样):以赛亚·伯林(Isaiah Berlin)在古希腊诗歌的影响下曾写下著名的文章《刺猬与狐狸》。在这篇文章中,伯林区分了两类知识分子:一类是刺猬,用一个观点统摄对世界的认识;另一类狐狸,则承认种种无法统一的经验,拒绝单一观点。如果你只有一个想法,你会倾向于寻找确认它的证据,忽略任何与之相矛盾的东西。如果你有很多小想法,你会更关心什么是正确的,而不是什么支持你当前的信仰,当证据不再支持它们时,你可以放弃任何想法。这两种不同的思维方式也解释了为什么那些对自己的预测更有信心的人(比如股票专家)往往更容易出错。


做大量的预测并得到快速的反馈:我们对于频繁发生的事件,做出估计往往更准确,主要是因为反馈和改进周期的影响。每天的天气预报都是错误的,这些信息被输入到模型中,使明天的天气预报变得更好(这也是几十年来天气预报大幅改善的一个原因)。在我们面临很少遇到的情况时,我们最难做出选择,在这些情况下,使用尽可能多的数据才是关键。


尽可能多地利用各种不同的数据来源:每个数据提供者都有自己的偏见,但是通过汇总不同的估计数据,你可以利用平均值找出错误,这一点在Silver的Fivethirtyeight网站上得到了很好的体现。这种群体智慧的方法意味着使用了与你的观点不一致的资源,而不是仅仅依靠某个领域的“专家”。

要囊括不确定性区间,不要害怕在证据改变时更新观点:人们在预测时犯的最大错误就是只提供一个数字。尽管有一个答案可能是公众希望听到的,但这个世界从来就不是严格意义上的非黑即白,而是存在于灰色的过渡阴影中,我们有责任在我们的预测中表现出来这一点。表达不确定性似乎是懦弱的,比如说希拉里有70%的获胜机会,那就意味着无论结果如何,你都是对的,但实际上它比一个单一的“是/否”更现实。此外,人们认为改变别人的观点是一种攻击性的负面行为,但在数据科学和形成世界观的过程中,基础认知的变化实际上几乎是不可避免而且利大于弊的。


总结一下作者的经典名言:
我们对世界的预测永远不会是完全正确的,但这不应阻止我们依靠经过充分证明的原则做出更高的预测,从而减少错误。

真正的预测者会用概率的方法思考问题,他们谦虚而且勤恳,能清楚地区分什么是不可预测的、什么是可预测的,他们注重任何靠近真相一步的成千上百个小细节,他们能辨识出什么是噪声、什么是信号。

从全球经济的健康到战胜恐怖主义,都依靠预测的质量。在这里,《信号与噪声》可以给你想要的答案。此外还有两本同样类别的书,分别是菲利普·特洛克的《超级预测》和《专家政治判断》。


No. 2 Weapons of Math Destruction算法霸权:数学杀伤性武器的威胁


作者:凯西•奥尼尔(Cathy O’Neill)

数据科学家凯西•奥尼尔认为,我们应该警惕不断渗透和深入我们生活的数学模型——它们的存在,很有可能威胁到我们的社会结构。


通过追踪一个人的生命轨迹,凯西•奥尼尔试图在书中揭露数学这类杀伤性武器对塑造个人和社会未来的影响。这些“杀伤性武器”会给教师和学生评分,筛选简历,批准贷款或拒绝贷款,评估员工,甚至监督我们的健康状况,因此凯西•奥尼尔呼吁建模者,要对自己的算法承担责任,并且呼吁政策制定者对模型的使用进行监督管理。她还指出,对模型的掌控最终取决于我们自己。这本重要的书迫使我们直面问题,探求真理。


我们生活在一个依赖“算法”的时代,它对我们生活的影响越来越大,我们去哪里上学,我是不是应该贷款买车,我们应该花多少钱来买健康保险,这些都不是由人来决定的,而是由大数据模型来决定的。从理论上来说,这一模型应该让社会更加公平,因为每一个人的衡量标准都是一样的,不应该存在偏见。


但是,正如凯西•奥尼尔书里所揭示的那样,事实刚好相反。如今,被广泛使用的算法模型,即使其本身充斥着错误,也依旧不受管束、不被质疑。其中,“强化歧视”的问题特别值得反思:如果一个穷学生因为被借贷模型认定为风险过高(仅仅是根据该学生所生活的街区就得出此判断)而贷不了款,那么接下来,他就会被剥夺能够帮他摆脱贫困的接受优质教育机会,继而陷入一系列的恶性循环。


因此,我们今天所使用的这些数学模型是不透明的、未经调节的、极富争议的,有的甚至还是错误的。最糟糕的是,数学模型和大数据算法加剧了偏见与不公。


奥尼尔的书似乎对机器学习模式持悲观态度,但我更愿意把它看作是一种必要的批评:由于围绕机器学习的热情如此之大,我们需要愿意退后一步并问:这些工具真的能改善人们的生活吗?作为一个社会,我们应该如何接纳他们?


读完本书,你会发现,大数据的武器化是无处不在的。也许,当你看到世界上最强大的数据系统做的这些事,你会产生一些焦虑,但是,对于那些我们未能认识到的问题,我们谁都无法解决。


在作者看来,大数据犹如一个黑盒,规模、伤害和隐秘共存,她在书中引用了大量发生在美国当下的、基于大数据和算法的、改变个人生活的案例,并对影响这些城市生活经验的算法做了特别的观察和研究。


作者认为,数据和算法的关系就像枪械和军火,数据没有价值观,是中立的,但来自人类行为的输入,难免隐含偏向,而算法创造的数据又对人类行为产生反作用,从而导致更多的不公。


凯西指出:算法模型一旦运转,执法行为就会增多,产生的新数据又会进一步证明加强执法的必要性。形象地说,就是哪里“前科”越多,哪里就越受算法“关照”,最终形成一个失真,甚至有害的回馈环路。这个观点也正是近来Facebook干预美国大选,国内很多专家学者热议“今日头条”推送模式的核心所在。


不过,机器学习算法只是工具,和任何工具一样具有两面性,使用得当也可以造福人类。幸运的是,我们仍处于早期阶段,这意味着我们可以对其进行改造,以确保它们能够做出客观的决策,并为大多数人创造最佳的结果。我们现在在这方面所做的选择将在未来几十年塑造数据科学的未来。


数据科学虽然是一个年轻的领域,但已经在数百万人的生活中对好与坏产生了巨大的影响。作为这一新领域的开拓者,我们现在的工作人员有义务确保我们的算法不会变成毁灭性的数学武器。


如果你想从事数据科学相关的工作,这本书绝对是必读之作。


No. 3 Algorithms to Live By: The Computer Science of Human Decisions 算法之美:指导工作与生活的算法


作者:布莱恩·克里斯汀&汤姆·格里菲思


How Not to be Wrong: The Power of Mathematical Thinking 魔鬼数学:大数据时代,数学思维的力量


作者:乔丹·艾伦伯格(Jordan Ellenberg)


计算机科学和统计学(包括其他所有的研究性学科)在学校的课堂上往往会遇到一个问题:学起来既抽象又无聊。只有当它们被应用于解决现实的问题的时候,才会变得足够有趣,让我们想要去探索。而上述这两本书都把枯燥的主题转变成了有趣的、信息丰富的描绘,讲述了如何在日常生活中使用算法、统计和数学。


所谓算法,是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。如果我们在考虑问题时,清晰地了解我们所与之对应的算法,那么就可以更容易地解析问题或者更优地解决问题。


例如,在关于生活方式的算法中,作者展示了该如何利用探索与利用权衡和最佳停站的概念,找出我们应该花多长时间寻找配偶(或新员工、餐厅等)。同样,我们可以使用排序算法最有效地整理我们的物品,以便快速检索需要的东西。虽然你可能接触过这些想法,甚至可以用代码来写,但你可能从来没有利用它们来优化自己的生活吧。


而在艾伦伯格的这本书中,主要讲述了数学的魅力,以及如何获得用数学原则解决生活中问题的技巧。作者认为,数学可以帮助我们更好地了解这个世界的结构和本质,应该被放在每个有思想的人的工具箱里,用于更好地解决问题,规避谬误和错误的方法。这本书摒弃了复杂的专业术语,用现实世界中的逸事、基础的方程式和简单的图表,为读者带来一堂零基础的数学课。

艾伦伯格通过故事向我们展示了线性回归、推理、贝叶斯推理和概率等统计概念的使用和误用,帮助我们学会最优决策。应用概率定律表明,玩彩票总是会导致失败,除非在少数情况下,实际回报是积极的。


艾伦伯格这本书的中心引述是数学思维,“通过其他方式扩展常识”。在许多情况下,主要是在遥远的过去,我们的直觉很好地服务于我们,但在现代世界,有许多情况下,我们的最初反应是完全错误的。在这种情况下,我们不需要依靠直觉,而是可以使用概率和统计数据来做出最佳决策。


这两本书的严谨程度都是恰到好处的,其中夹杂着一些公式逻辑,还有很多实际案例。在此书中,我发现了许多从未在课堂上完全掌握的数据科学概念,最后我一遍又一遍地翻阅,体验了获得知识时刻的快乐。当然,数学、统计学和计算机科学只在能帮你更好地生活的情况下有用,而且这两本书都展示了你从未考虑过的这些学科的用途。


No.4  Thinking, Fast and Slow  思考的快与慢


作者:丹尼尔·卡尼曼(Daniel Kahneman)



人类是非理性的,我们通常会在生活中的各种情况里做出可怕的决定。然而,一旦理解了为什么我们会这怎么做而不是采取最佳行动时,就可以开始着手改变自己的行为以获得更好的结果了,这是就是卡尼曼数十年实验成果的核心。他的研究打开了认知心理学、认知科学、对理性与幸福的研究以及行为经济学的新局面,而本书也是他的集大成之作。


卡尼曼在《思考,快与慢》中揭示了三十多种理性偏差,如启发式联想,其中包括可得性偏见、锚定效应、直觉判断、光环效应等;如过度自信,其中包括后见之明、有效性错觉、算法判断等;如前景理论,包括风险决策、损失厌恶、禀赋效应、四重模式等。它们像一面思维的立体镜子,360度角照见大脑思考过程和顽固的偏差,让你认知你自己的思考决策过程。


作为2002年诺贝尔经济学奖获得者,卡尼曼和他的研究伙伴阿莫斯·特沃斯基(Amos Tversky,因对决策过程的研究而著名)以及理查德·塞勒(Richard Thaler,2017年诺贝尔经济学奖得主)等其他人共同创造了行为经济学的高光时刻,也让这个经济学中本来颇为小众的分支走进了更多人的视野,它将人们视为非理性的决策者,而非追逐效用最大化的理性人。当然事实也的确如此。这使得人们不仅在经济学上,而且在医学、体育、商业实践、节能和退休基金等生活领域的思维和设计选择发生了一些巨大的转变。我们也可以将本书中的许多发现应用于数据科学,例如如何呈现研究结果等。


《思考,快与慢》的基础是作者提出的关于人类的思考框架:系统1和系统2。系统1代指人类的非受控或者说是无意识的思考模式;系统2代指受人自身控制的或为有意识进行的思考模式。用系统1思考或判断是非常快捷的,几乎完全取决于直觉和经验,因此人们往往第一时间通过它在脑海中形成观点。但有时系统1可能得不到结论甚至得到错误的结论,在这种情况下,人类也经常求助系统2进行更为复杂和费力的思考过程,以补充或纠正系统1。


但是,上述说法不等于系统1是感性的、系统2是理性的。实际上系统2经常受到系统1的影响。这种影响可能是正确的,也可能是错误的。而且系统2很懒惰,经常疏于校验,从而无法纠正系统1形成的错误。


这种差异,使我们的直觉充满错误。卡尼曼和其他科学家的实验表明:复杂而华丽的句子,让我们觉得信息量丰富、容易信服,尽管可能它们什么都没说;咬住一支铅笔保持微笑的表情,也会让热人的情绪有实质性的提升,因为大脑无法分辨自己是真的高兴,还是仅仅被一根小木棍抵住了嘴角———正是认知系统的这种不可靠,以及通常我们获得信息的不完备,让我们更可能依赖一些简单的办法完成日常生活中的认知任务。


上述这些都是卡尼曼在传统心理学方面的研究,正是这样的研究让他认识到,经济学中理性人的假设是有缺陷的。人们在进行选择时考虑的效用,是拿未来的预期与现在的拥有进行比较,然后才进行判断。在判断中还有大脑工作的两种不同的模式会影响最后的结果。


这本书对于理解人们如何做出决定,以及我们作为数据科学家可以做些什么来帮助人们做出更好的选择至关重要。

此外,这本书也有一些其他的结论,适用描述自我概念:体验和记忆。体验自我是我们在一个事件中拥有的瞬间的感觉,但比记忆自我重要得多,记忆自我是我们事后对事件的感知。记忆自我根据体感高峰的结束过程来评价一种体验,这对健康、生活满意度和强迫自己做不愉快的任务有着深远的影响。我们会记住事件的时间比我们经历的时间长得多,所以在一次经历中,我们必须努力最大限度地提高我们记忆自我的未来满意度。


如果你想了解实际的人类心理学,而不是传统课堂上的那种理想化的知识,那么这本书是最好的开始。严格地说,卡尼曼并不是一个热衷于科普书籍的作家,但是他和他的同事杰出的学术贡献,却深刻地改变了我们对自己的认识。相较之下,近年来很多研究开始将目光投向社会行为的神经基础,用磁共振脑成像之类的法子探究问题。卡尼曼的工作专注于人类的行为,严谨地避免过多关于机制的推论。在如今的心理学界看来,似乎不那么时髦了。但是他的实验充满巧思与洞见,却不会是科学史上昙花一现的观点。


No.5  The Black Swan: The Impact of the Highly Improbable 黑天鹅:如何应对不可预知的未来


作者: 纳西姆•尼古拉斯•塔勒布 (Nassim Nicholas Taleb) 


只有一个地方可以让塔勒布在名单上占有一席之地,那就是一个局外人。塔勒布曾是一名定量交易员,在2000年和2007年的市场低迷期间赚了大量的钱,他已成为一名有声学者研究者,为他的作品赢得了全世界的目光,数不尽的赞誉和批评接踵而至。

那时,塔勒布感知到一种想法:当代思维方式的失败,尤其是在不确定性的时代的失败,是非常严重的。在《黑天鹅》一书中,塔勒布提出了这样一个概念:我们对支配人类活动的随机性视而不见,因而,当事情没有如预期那样发展时,我们就会被毁灭。黑天鹅最初于2007年出版,自2008年和2016年的金融危机意外以来,它变得更加有说服力,完全颠覆了传统的一套思维模式。


当然,根据中心前提,我们所要思考的问题是:不可能发生的事件不会经常发生,那么我们应该不应该担心它们?关键点是,虽然每个不可能发生的事件本身不太可能发生,但综合起来,几乎可以肯定,许多意想不到的事件最终都将出现在你的一生中,甚至在一年内。任何一年发生经济崩溃的可能性都很小,但这种可能性加起来你就会发现,世界上每十年都会出现一次经济衰退,这几乎是可以肯定的。


我们不仅应该预期到那些能使世界变化的事件会以高频率发生,而且不应该听取那些被过去经验所束缚的专家的意见。任何投资股市的人都应该知道,过去的表现并不能预测未来的表现,我们应该在我们的数据科学模型(使用过去的数据进行推测的方法)中考虑这一教训。此外,我们的世界不是正态分布的,而是长尾分布的,有一些极端事件如大衰退,或一些富有的个人如比尔盖茨,能够盖过其他所有人。所以当极端事件发生时,其实没有人能准备好迎接它,因为这种事件远远超过了以往任何事件的规模。


“黑天鹅”对数据科学家很重要,因为它表明,任何仅基于过去性能的模型通常都会出错,并产生灾难性的后果。所有机器学习模型都是用过去的数据构建的,这意味着我们不能太信任它们。模型(包括Taleb)是有缺陷的,为了尽可能与现实贴近,我们应该确保有系统来处理这些不可避免的失败。


值得一提的是,塔勒布不仅以其新颖的思想而闻名,而且他的性格也极端好斗。他甚至愿意和所有人较量,经常批评像史蒂文·平克(美国实验心理学家)这样的学者,或者像内特·西尔弗(数据分析师,曾经在2012年美国总统大选中准确预测了50个州的选举结果)那样的公众人物。在我们这个严重扭曲的时代,他的想法有助于理解一些超前的事物,但他的态度可能有点令人不快。尽管如此,我还是认为这本书值得一读,因为它提供了一个非主流的思想体系。


(这本书是塔勒布的第二系列的第五部分,因瑟托阐述了他的完整哲学思想。《黑天鹅》讨论了极不可能发生的事件的概念,而《乱伦:从混乱中获得的东西》中的第四本书则讨论了如何使自己不仅能够经受住破坏,而且能够因此使自己变得更好。我认为黑天鹅的思想是与数据科学最为贴近的。)


结论


在盯着电脑屏幕整理了一整天之后,我想不出比看书(印刷品、电子书或有声读物都可以)更好的方法来为这充实的一天收尾。需要提醒的是,数据科学需要不断扩展工具箱中的工具,即使我们想要放松一下,让我们的思维远离工作,但也不能停止学习。


以上推荐的这些书都是需要全神贯注去阅读的,它们将教会我们很多关于数据科学和生活的课程。这些作品将通过展示什么是真正驱动人类的思想来为更多的技术作品提供有益的补充。了解人们在现实中的想法而非理想化的模型,对贯彻更有效的数据决策来说,与统计它们一样重要。

© 2011~2015 3 北京勺海市场调查有限责任公司 | 京ICP备12031756号 | 京公网安备11010802012285号

电话:010-84284411    地址:中国北京朝阳区东三环中路建外SOHO18号楼1506室   技术支持:千晨科技