9.1_.jpg

 前言:前几天有读者来信反应要我推荐一些深度学习的教材或资源,我想留到下一期再推荐给大家。今天文章的主要内容还是来聊聊我与数据打交道的感悟。



提到数据这个词,我们脑海中的第一反应会是什么呢?也许有人会想到:“我今年已经多少岁了”,“我的生日是几月几号”,“我朋友圈中有多少个好友了”,“今天我在朋友圈收到了多少个点赞或评论”,“我的公众号粉丝昨天涨了多少”,“天呐,这个月我竟然消费了多少人民币”,“只剩多少天我就可以熬完期末考试周了”等等。
 
我想每个人都存储着自己独有的海量数据,每个人都有对自己的数据不同的处理方式,也许,每个人都承担着自己王国里的数据科学家的角色。



或许大家都会感到惊叹,我从来不处理数据,怎么可能成为了数据科学家。殊不知,如果我们把万事万物量化一番,我们每个人时时刻刻都在与数据打交道。
 
例如,出租车司机可以根据历史见闻和当下热点来预判什么时间段什么地点有可能拉到更多的乘客,因为出租车司机心中储存着以往拉客的时间地点等数据信息;资深医生可以根据自己以往的诊断经验来辅助判断如何对当下的病人进行对症下药,因为他们可以根据病人的生理特征以及病理反应去大脑中检索自己以往遇到的类似病人的数据;经验丰富的老师可以根据一个学生的平时考试成绩来对他高考成绩进行大概的估计,因为他们可以根据往届无数学生的平时表现以及高考得分来做一个合理的预测。
 
阅历是一种财富,如果把这些抽象的阅历量化成具体的数据,那么数据无疑是当今最重要的财富,至少数据存在机器里要比存在人脑里可靠,因为人可能会犯糊涂,而机器不会。



有人说,数据科学家是21世纪最性感的职业,其实,在我看来,数据科学家从古至今都是很性感的职业,只不过在21世纪变得接地气起来。随着各种数据挖掘的框架、工具包、软件的发布,数据科学的门槛已经变得越来越低;另一方面,随着大数据时代的到来,数据科学的重要性也已经日益彰显。那什么是数据科学呢?我想谈谈我的理解。



我觉得从事数据科学的应该是一类比搞纯编程的人更懂统计学,比搞纯统计的人更懂计算机科学的人。数据科学是一门综合性学科,囊括了计算机科学、数理统计、专业知识三大板块。
 
 
现在大多数数据挖掘教材都只会谈论前两点——计算机科学和数理统计,因为这两点放在任何问题里面都是最基础的通用工具,而对于第三点——专业知识是几千页纸都讲不完的,不同的领域会遇到不同的问题,具体问题具体分析,活学活用吧。



继续数据分析软件的话题。在网上有一句段子叫做“人生苦短,我用Python”,在没有接触Python之前,我也觉得这句段子估计也只是个段子而已。后来,上手了Python以后越来越觉得它极其简化了我的工作,正如Unix系统的一句哲学“Keep it simple,stupid”,Python语言具有上手快并且可读性很好的优点,而且它是一个完完全全面向对象的语言,在很大程度上能够提高项目的操作效率。那为什么要使用Python作为我的数据分析语言呢?
 
我觉得原因主要有三点:
 
第一,Python是一种免费的脚本语言,并且Linux系统对其支持十分友好,而我通常是在Linux环境下工作;
 
第二,Python具有一套完善的科学计算核心库,如Numpy、matplotlib、pandas等,除此之外,还有很强大的机器学习库Theano、Tensorflow也都是基于Python语言,这些完善的框架使得借助Python进行数据分析具有先天的优势;
 
第三,Python的用户群也是十分庞大的,各种基于Python的新框架层出不穷,而且各大互联网公司均有在使用Python进行数据挖掘,因此遇到什么问题一般都可以在网上得到正确的指导。
 
 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家