本月累计签到次数:

今天获取 积分

数据

数据

366 浏览

我与数据打交道(三)

机械自动化类 机械设计 2016-12-05 14:18 发表了文章 来自相关话题

 前言:本期文章是《我与数据打交道》系列的第三篇,也是最后一篇。后面几期文章的重心是神经网络,敬请关注。


小时候,我会经常听见大人们说:小孩怎么这么爱挑食?却很少有听说大人们也爱挑食,大概是因为大人们买的都是他们愿意吃的东西吧。


“己所不欲,勿施于人;己所之欲,慎施于人”。这句话的意思大概是,不要把自己主观上的想法强推给他人,反过来说,就是“己所之欲,亦施于人”,某些无良网站的某些无良广告大概就是奉行这条准则的吧。


只要有互动的地方,就会有推荐存在的合理性。现在越来越多的网站都在提供智能的推荐服务,例如宣称最关心用户的某新闻类APP就使用了智能推荐对读者推送其关心的头条新闻;某电商平台上浏览了一个物品以后,下方会出现你可能还喜欢的物品栏;在搜索框里输入“微信”两个字时,下方已经出现了一系列推荐词汇,如“微信网页版”,“微信公众号”等等。推荐似乎已经融入了互联网的各个角落,尽管目前来看,推荐的效果仍然是良莠不齐。不过,目光放远一点,搜索引擎的未来也许就是更加智能的推荐系统吧。


那什么是推荐系统呢?推荐是数据的产物,没有数据就没有推荐。推荐系统的工作原理通常分为两大类,内容过滤和协同过滤。下面以电商网站购物为例,谈谈二者的区别。


例如顾客A购买了商品1,如果商品2与商品1相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于内容过滤的推荐方法,重点关注的是商品本身,而非顾客。


再例如顾客A购买了商品1,顾客B购买了商品2,如果顾客A和顾客B在很多属性上相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于协同过滤的推荐方法,重点关注的是顾客本身,而非商品。


为了使得推荐系统更加智能化,通常会结合内容过滤和协同过滤一起使用。总之,就是说要想有一个优秀的推荐系统,需要同时考虑内容过滤和协同过滤。前几天有读者希望我推荐一些数据挖掘方面的资源,我考虑了一下,第一我可能不知道你以前偏爱哪种风格的书籍,第二我也不清楚你是否和我有一样的口味,于是我接下来的推荐所导致的资源浏览次数以及读者口碑满意度可能并不太理想了,不过还是尝试一下吧。


《Think Bayes》,这本书对贝叶斯理论讲得很详细,并且随书插入了相关的Python代码,适合一边学习,一边实践。


《Data Science From Scratch First Principles With Python》,这本书写得很入门,包含了数理统计知识、Python高级数据结构的使用、数据可视化,很实用的一本书。

《Machine learning A Probabilistic Perspective》,这本书无需介绍,数据挖掘的经典书籍。

《CS231n Convolutional Neural Network for Visual Recognition》,这是斯坦福大学的一门关于卷积神经网络在视觉识别中的应用,虽然标题强调了CNN,但是课程内容将近一半是讲了深度学习的基础原理与实践技巧,很实用。


以上是我看过的觉得挺有帮助的书籍,至于其他书籍,由于我还没认真看过,所以这里也不敢冒昧列出。


最后分享摘自著名作家余秋雨的书籍《千年一叹》中的金句:

• 干净的痛苦一定会沉淀,沉淀成悠闲,悠闲是痛苦的补偿,痛苦是悠闲的衬垫。


 
来源: 张泽旺 深度学习每日摘要
智造家 查看全部

10.1_.jpg

 前言:本期文章是《我与数据打交道》系列的第三篇,也是最后一篇。后面几期文章的重心是神经网络,敬请关注。


小时候,我会经常听见大人们说:小孩怎么这么爱挑食?却很少有听说大人们也爱挑食,大概是因为大人们买的都是他们愿意吃的东西吧。


“己所不欲,勿施于人;己所之欲,慎施于人”。这句话的意思大概是,不要把自己主观上的想法强推给他人,反过来说,就是“己所之欲,亦施于人”,某些无良网站的某些无良广告大概就是奉行这条准则的吧。


只要有互动的地方,就会有推荐存在的合理性。现在越来越多的网站都在提供智能的推荐服务,例如宣称最关心用户的某新闻类APP就使用了智能推荐对读者推送其关心的头条新闻;某电商平台上浏览了一个物品以后,下方会出现你可能还喜欢的物品栏;在搜索框里输入“微信”两个字时,下方已经出现了一系列推荐词汇,如“微信网页版”,“微信公众号”等等。推荐似乎已经融入了互联网的各个角落,尽管目前来看,推荐的效果仍然是良莠不齐。不过,目光放远一点,搜索引擎的未来也许就是更加智能的推荐系统吧。


那什么是推荐系统呢?推荐是数据的产物,没有数据就没有推荐。推荐系统的工作原理通常分为两大类,内容过滤和协同过滤。下面以电商网站购物为例,谈谈二者的区别。


例如顾客A购买了商品1,如果商品2与商品1相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于内容过滤的推荐方法,重点关注的是商品本身,而非顾客。


再例如顾客A购买了商品1,顾客B购买了商品2,如果顾客A和顾客B在很多属性上相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于协同过滤的推荐方法,重点关注的是顾客本身,而非商品。


为了使得推荐系统更加智能化,通常会结合内容过滤和协同过滤一起使用。总之,就是说要想有一个优秀的推荐系统,需要同时考虑内容过滤和协同过滤。前几天有读者希望我推荐一些数据挖掘方面的资源,我考虑了一下,第一我可能不知道你以前偏爱哪种风格的书籍,第二我也不清楚你是否和我有一样的口味,于是我接下来的推荐所导致的资源浏览次数以及读者口碑满意度可能并不太理想了,不过还是尝试一下吧。


《Think Bayes》,这本书对贝叶斯理论讲得很详细,并且随书插入了相关的Python代码,适合一边学习,一边实践。


《Data Science From Scratch First Principles With Python》,这本书写得很入门,包含了数理统计知识、Python高级数据结构的使用、数据可视化,很实用的一本书。

《Machine learning A Probabilistic Perspective》,这本书无需介绍,数据挖掘的经典书籍。

《CS231n Convolutional Neural Network for Visual Recognition》,这是斯坦福大学的一门关于卷积神经网络在视觉识别中的应用,虽然标题强调了CNN,但是课程内容将近一半是讲了深度学习的基础原理与实践技巧,很实用。


以上是我看过的觉得挺有帮助的书籍,至于其他书籍,由于我还没认真看过,所以这里也不敢冒昧列出。


最后分享摘自著名作家余秋雨的书籍《千年一叹》中的金句:

• 干净的痛苦一定会沉淀,沉淀成悠闲,悠闲是痛苦的补偿,痛苦是悠闲的衬垫。


 
来源: 张泽旺 深度学习每日摘要
智造家
385 浏览

我与数据打交道(二)

机械自动化类 机械设计 2016-12-05 14:11 发表了文章 来自相关话题

 前言:前几天有读者来信反应要我推荐一些深度学习的教材或资源,我想留到下一期再推荐给大家。今天文章的主要内容还是来聊聊我与数据打交道的感悟。



提到数据这个词,我们脑海中的第一反应会是什么呢?也许有人会想到:“我今年已经多少岁了”,“我的生日是几月几号”,“我朋友圈中有多少个好友了”,“今天我在朋友圈收到了多少个点赞或评论”,“我的公众号粉丝昨天涨了多少”,“天呐,这个月我竟然消费了多少人民币”,“只剩多少天我就可以熬完期末考试周了”等等。
 
我想每个人都存储着自己独有的海量数据,每个人都有对自己的数据不同的处理方式,也许,每个人都承担着自己王国里的数据科学家的角色。



或许大家都会感到惊叹,我从来不处理数据,怎么可能成为了数据科学家。殊不知,如果我们把万事万物量化一番,我们每个人时时刻刻都在与数据打交道。
 
例如,出租车司机可以根据历史见闻和当下热点来预判什么时间段什么地点有可能拉到更多的乘客,因为出租车司机心中储存着以往拉客的时间地点等数据信息;资深医生可以根据自己以往的诊断经验来辅助判断如何对当下的病人进行对症下药,因为他们可以根据病人的生理特征以及病理反应去大脑中检索自己以往遇到的类似病人的数据;经验丰富的老师可以根据一个学生的平时考试成绩来对他高考成绩进行大概的估计,因为他们可以根据往届无数学生的平时表现以及高考得分来做一个合理的预测。
 
阅历是一种财富,如果把这些抽象的阅历量化成具体的数据,那么数据无疑是当今最重要的财富,至少数据存在机器里要比存在人脑里可靠,因为人可能会犯糊涂,而机器不会。



有人说,数据科学家是21世纪最性感的职业,其实,在我看来,数据科学家从古至今都是很性感的职业,只不过在21世纪变得接地气起来。随着各种数据挖掘的框架、工具包、软件的发布,数据科学的门槛已经变得越来越低;另一方面,随着大数据时代的到来,数据科学的重要性也已经日益彰显。那什么是数据科学呢?我想谈谈我的理解。



我觉得从事数据科学的应该是一类比搞纯编程的人更懂统计学,比搞纯统计的人更懂计算机科学的人。数据科学是一门综合性学科,囊括了计算机科学、数理统计、专业知识三大板块。
 
 
现在大多数数据挖掘教材都只会谈论前两点——计算机科学和数理统计,因为这两点放在任何问题里面都是最基础的通用工具,而对于第三点——专业知识是几千页纸都讲不完的,不同的领域会遇到不同的问题,具体问题具体分析,活学活用吧。



继续数据分析软件的话题。在网上有一句段子叫做“人生苦短,我用Python”,在没有接触Python之前,我也觉得这句段子估计也只是个段子而已。后来,上手了Python以后越来越觉得它极其简化了我的工作,正如Unix系统的一句哲学“Keep it simple,stupid”,Python语言具有上手快并且可读性很好的优点,而且它是一个完完全全面向对象的语言,在很大程度上能够提高项目的操作效率。那为什么要使用Python作为我的数据分析语言呢?
 
我觉得原因主要有三点:
 
第一,Python是一种免费的脚本语言,并且Linux系统对其支持十分友好,而我通常是在Linux环境下工作;
 
第二,Python具有一套完善的科学计算核心库,如Numpy、matplotlib、pandas等,除此之外,还有很强大的机器学习库Theano、Tensorflow也都是基于Python语言,这些完善的框架使得借助Python进行数据分析具有先天的优势;
 
第三,Python的用户群也是十分庞大的,各种基于Python的新框架层出不穷,而且各大互联网公司均有在使用Python进行数据挖掘,因此遇到什么问题一般都可以在网上得到正确的指导。
 
 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家 查看全部

9.1_.jpg

 前言:前几天有读者来信反应要我推荐一些深度学习的教材或资源,我想留到下一期再推荐给大家。今天文章的主要内容还是来聊聊我与数据打交道的感悟。



提到数据这个词,我们脑海中的第一反应会是什么呢?也许有人会想到:“我今年已经多少岁了”,“我的生日是几月几号”,“我朋友圈中有多少个好友了”,“今天我在朋友圈收到了多少个点赞或评论”,“我的公众号粉丝昨天涨了多少”,“天呐,这个月我竟然消费了多少人民币”,“只剩多少天我就可以熬完期末考试周了”等等。
 
我想每个人都存储着自己独有的海量数据,每个人都有对自己的数据不同的处理方式,也许,每个人都承担着自己王国里的数据科学家的角色。



或许大家都会感到惊叹,我从来不处理数据,怎么可能成为了数据科学家。殊不知,如果我们把万事万物量化一番,我们每个人时时刻刻都在与数据打交道。
 
例如,出租车司机可以根据历史见闻和当下热点来预判什么时间段什么地点有可能拉到更多的乘客,因为出租车司机心中储存着以往拉客的时间地点等数据信息;资深医生可以根据自己以往的诊断经验来辅助判断如何对当下的病人进行对症下药,因为他们可以根据病人的生理特征以及病理反应去大脑中检索自己以往遇到的类似病人的数据;经验丰富的老师可以根据一个学生的平时考试成绩来对他高考成绩进行大概的估计,因为他们可以根据往届无数学生的平时表现以及高考得分来做一个合理的预测。
 
阅历是一种财富,如果把这些抽象的阅历量化成具体的数据,那么数据无疑是当今最重要的财富,至少数据存在机器里要比存在人脑里可靠,因为人可能会犯糊涂,而机器不会。



有人说,数据科学家是21世纪最性感的职业,其实,在我看来,数据科学家从古至今都是很性感的职业,只不过在21世纪变得接地气起来。随着各种数据挖掘的框架、工具包、软件的发布,数据科学的门槛已经变得越来越低;另一方面,随着大数据时代的到来,数据科学的重要性也已经日益彰显。那什么是数据科学呢?我想谈谈我的理解。



我觉得从事数据科学的应该是一类比搞纯编程的人更懂统计学,比搞纯统计的人更懂计算机科学的人。数据科学是一门综合性学科,囊括了计算机科学、数理统计、专业知识三大板块。
 
 
现在大多数数据挖掘教材都只会谈论前两点——计算机科学和数理统计,因为这两点放在任何问题里面都是最基础的通用工具,而对于第三点——专业知识是几千页纸都讲不完的,不同的领域会遇到不同的问题,具体问题具体分析,活学活用吧。



继续数据分析软件的话题。在网上有一句段子叫做“人生苦短,我用Python”,在没有接触Python之前,我也觉得这句段子估计也只是个段子而已。后来,上手了Python以后越来越觉得它极其简化了我的工作,正如Unix系统的一句哲学“Keep it simple,stupid”,Python语言具有上手快并且可读性很好的优点,而且它是一个完完全全面向对象的语言,在很大程度上能够提高项目的操作效率。那为什么要使用Python作为我的数据分析语言呢?
 
我觉得原因主要有三点:
 
第一,Python是一种免费的脚本语言,并且Linux系统对其支持十分友好,而我通常是在Linux环境下工作;
 
第二,Python具有一套完善的科学计算核心库,如Numpy、matplotlib、pandas等,除此之外,还有很强大的机器学习库Theano、Tensorflow也都是基于Python语言,这些完善的框架使得借助Python进行数据分析具有先天的优势;
 
第三,Python的用户群也是十分庞大的,各种基于Python的新框架层出不穷,而且各大互联网公司均有在使用Python进行数据挖掘,因此遇到什么问题一般都可以在网上得到正确的指导。
 
 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家
392 浏览

我与数据打交道(一)

机械自动化类 机械设计 2016-12-05 14:06 发表了文章 来自相关话题

 




前言:公众号文章纯粹谈技术貌似不太好,一些复杂的公式也无法支持,插入图片看起来也并不美观,因此以后的文章主要以文字的形式谈谈技术以及感悟。本篇主要回顾一下我与数据分析有过的峥嵘岁月。那些年,为了赶工手抄版或电子版的实验报告插图、为了拿高分不得不让数据看起来更美观所用过的一些数据分析软件的心得体会。



    最近大家都在谈论大数据、信息爆炸等词语,的确,现在正处于信息蓬勃式发展、网络快餐式消费的时代,每天我们每个人为互联网所贡献的比特数至少数亿以上,面对庞大的数据资源,如何充分发掘它们的价值是当下机器学习的热门话题。作为一名普通的在校理工男,太大的数据量我是很难遇到的,我今天只想谈谈那些年,我与小数据打交道的过往点滴。



    回忆起刚刚几年前的时候,我拿到一份粗糙的实验数据,一脸茫然的样子,根本无从下手。还好,那个时候我的第一直觉就是使用Excel来帮助分析数据,当时使用Excel分析数据的好处就是简单粗暴,只要获得了想要的数据,无论是txt格式或者是csv格式,只需要一个按钮即可完美导入所有数据,然后下拉全选,只要熟悉了Excel的一些基本函数操作,对某行某列的数据分析显得如鱼得水了,算术运算、平均数、标准差、最值等等这些都是家常便饭了。
 
 
     当然,如果实验报告中只有光秃秃的几行公式以及统计数据,是不足以吸引老师的眼球的,为了博取高分,数据可视化是数据分析必不可少的亮点。谈起Excel的数据可视化,也就那么几种吧:条形图、柱状图、折线图、甚至三维图,这些图的做法都不难,勾勾就行了。不过,Excel作图有很多限制,一个图的很多属性是难以修改的,因此这种图往实验报告上一放就显得比较平庸甚至会被一些机智的老师嘲笑的。




    这个时候一个数据分析软件就派上用场了,那就是origin科学作图软件,origin与Excel最大的不同点就是它的功能十分庞大,不仅包括了各种统计学工具,而且使用它作出的图形也很美观,而且很多科研论文的图形甚至都是用origin作出来的,足以看出它的地位了。不过,我不太喜欢origin,虽然它功能强大,但是它始终是基于UI界面的,也就是说几乎所有的功能都是通过按钮来实现的,这种操作的优点是很具有人性化,基本上只要你眼睛睁大一点就不会错过某一个强大的功能;但是,从我一个程序员的角度来看,通过按钮操作的不具有可重复操作性,也就是每次作类似图我都要这样点来点去,效率不是很高。
 
 
    人工智能的目的不是消灭人类,而是把人类从纷繁复杂的重复劳动中解放出来,其实编程语言也可以看做一种人工智能,只要第一次写出了分析数据或科学作图的可运行的代码,往后很多重复的工作就可以避免了。



    放弃了学习origin,我便使用了MATLAB作为我的实验报告的主要利器。谈起MATLAB,可能很多人以为它是一个主打仿真的软件,其实不然,MATLAB英文全名是Matrix Laboratory,即矩阵实验室。所谓矩阵实验室,即它是一种线性代数的工具,那自然包括数据处理在内了,并且MATLAB可以作很多类型的图,既美观又富含信息量,一张图如果能做到美观又能传递非常多的信息就已经很成功了,的确,MATLAB可以做到这一点。并且,MATLAB与origin的最大不同之处是它是一种基于命令行的软件,它使用了自带了类似于C语言中一个MATLAB编程语言,任意操作都可以使用代码去表示,无论是数据分析还是科学作图,这样就使得代码的复用性很高,对于类似的操作不用重重复复去点来点去了。而且,MATLAB的用户群非常庞大,所以其社区交流互动非常活跃,遇到什么问题一般只要Google或Baidu一下就可以解决了。



    那么,是不是可以认为MATLAB是最好的数据分析软件呢?
 
 
 
 
 
来源:张泽旺 深度学习每日摘要
智造家 查看全部
 
8.1_.jpg


前言:公众号文章纯粹谈技术貌似不太好,一些复杂的公式也无法支持,插入图片看起来也并不美观,因此以后的文章主要以文字的形式谈谈技术以及感悟。本篇主要回顾一下我与数据分析有过的峥嵘岁月。那些年,为了赶工手抄版或电子版的实验报告插图、为了拿高分不得不让数据看起来更美观所用过的一些数据分析软件的心得体会。



    最近大家都在谈论大数据、信息爆炸等词语,的确,现在正处于信息蓬勃式发展、网络快餐式消费的时代,每天我们每个人为互联网所贡献的比特数至少数亿以上,面对庞大的数据资源,如何充分发掘它们的价值是当下机器学习的热门话题。作为一名普通的在校理工男,太大的数据量我是很难遇到的,我今天只想谈谈那些年,我与小数据打交道的过往点滴。



    回忆起刚刚几年前的时候,我拿到一份粗糙的实验数据,一脸茫然的样子,根本无从下手。还好,那个时候我的第一直觉就是使用Excel来帮助分析数据,当时使用Excel分析数据的好处就是简单粗暴,只要获得了想要的数据,无论是txt格式或者是csv格式,只需要一个按钮即可完美导入所有数据,然后下拉全选,只要熟悉了Excel的一些基本函数操作,对某行某列的数据分析显得如鱼得水了,算术运算、平均数、标准差、最值等等这些都是家常便饭了。
 
 
     当然,如果实验报告中只有光秃秃的几行公式以及统计数据,是不足以吸引老师的眼球的,为了博取高分,数据可视化是数据分析必不可少的亮点。谈起Excel的数据可视化,也就那么几种吧:条形图、柱状图、折线图、甚至三维图,这些图的做法都不难,勾勾就行了。不过,Excel作图有很多限制,一个图的很多属性是难以修改的,因此这种图往实验报告上一放就显得比较平庸甚至会被一些机智的老师嘲笑的。




    这个时候一个数据分析软件就派上用场了,那就是origin科学作图软件,origin与Excel最大的不同点就是它的功能十分庞大,不仅包括了各种统计学工具,而且使用它作出的图形也很美观,而且很多科研论文的图形甚至都是用origin作出来的,足以看出它的地位了。不过,我不太喜欢origin,虽然它功能强大,但是它始终是基于UI界面的,也就是说几乎所有的功能都是通过按钮来实现的,这种操作的优点是很具有人性化,基本上只要你眼睛睁大一点就不会错过某一个强大的功能;但是,从我一个程序员的角度来看,通过按钮操作的不具有可重复操作性,也就是每次作类似图我都要这样点来点去,效率不是很高。
 
 
    人工智能的目的不是消灭人类,而是把人类从纷繁复杂的重复劳动中解放出来,其实编程语言也可以看做一种人工智能,只要第一次写出了分析数据或科学作图的可运行的代码,往后很多重复的工作就可以避免了。



    放弃了学习origin,我便使用了MATLAB作为我的实验报告的主要利器。谈起MATLAB,可能很多人以为它是一个主打仿真的软件,其实不然,MATLAB英文全名是Matrix Laboratory,即矩阵实验室。所谓矩阵实验室,即它是一种线性代数的工具,那自然包括数据处理在内了,并且MATLAB可以作很多类型的图,既美观又富含信息量,一张图如果能做到美观又能传递非常多的信息就已经很成功了,的确,MATLAB可以做到这一点。并且,MATLAB与origin的最大不同之处是它是一种基于命令行的软件,它使用了自带了类似于C语言中一个MATLAB编程语言,任意操作都可以使用代码去表示,无论是数据分析还是科学作图,这样就使得代码的复用性很高,对于类似的操作不用重重复复去点来点去了。而且,MATLAB的用户群非常庞大,所以其社区交流互动非常活跃,遇到什么问题一般只要Google或Baidu一下就可以解决了。



    那么,是不是可以认为MATLAB是最好的数据分析软件呢?
 
 
 
 
 
来源:张泽旺 深度学习每日摘要
智造家
366 浏览

我与数据打交道(三)

机械自动化类 机械设计 2016-12-05 14:18 发表了文章 来自相关话题

 前言:本期文章是《我与数据打交道》系列的第三篇,也是最后一篇。后面几期文章的重心是神经网络,敬请关注。


小时候,我会经常听见大人们说:小孩怎么这么爱挑食?却很少有听说大人们也爱挑食,大概是因为大人们买的都是他们愿意吃的东西吧。


“己所不欲,勿施于人;己所之欲,慎施于人”。这句话的意思大概是,不要把自己主观上的想法强推给他人,反过来说,就是“己所之欲,亦施于人”,某些无良网站的某些无良广告大概就是奉行这条准则的吧。


只要有互动的地方,就会有推荐存在的合理性。现在越来越多的网站都在提供智能的推荐服务,例如宣称最关心用户的某新闻类APP就使用了智能推荐对读者推送其关心的头条新闻;某电商平台上浏览了一个物品以后,下方会出现你可能还喜欢的物品栏;在搜索框里输入“微信”两个字时,下方已经出现了一系列推荐词汇,如“微信网页版”,“微信公众号”等等。推荐似乎已经融入了互联网的各个角落,尽管目前来看,推荐的效果仍然是良莠不齐。不过,目光放远一点,搜索引擎的未来也许就是更加智能的推荐系统吧。


那什么是推荐系统呢?推荐是数据的产物,没有数据就没有推荐。推荐系统的工作原理通常分为两大类,内容过滤和协同过滤。下面以电商网站购物为例,谈谈二者的区别。


例如顾客A购买了商品1,如果商品2与商品1相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于内容过滤的推荐方法,重点关注的是商品本身,而非顾客。


再例如顾客A购买了商品1,顾客B购买了商品2,如果顾客A和顾客B在很多属性上相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于协同过滤的推荐方法,重点关注的是顾客本身,而非商品。


为了使得推荐系统更加智能化,通常会结合内容过滤和协同过滤一起使用。总之,就是说要想有一个优秀的推荐系统,需要同时考虑内容过滤和协同过滤。前几天有读者希望我推荐一些数据挖掘方面的资源,我考虑了一下,第一我可能不知道你以前偏爱哪种风格的书籍,第二我也不清楚你是否和我有一样的口味,于是我接下来的推荐所导致的资源浏览次数以及读者口碑满意度可能并不太理想了,不过还是尝试一下吧。


《Think Bayes》,这本书对贝叶斯理论讲得很详细,并且随书插入了相关的Python代码,适合一边学习,一边实践。


《Data Science From Scratch First Principles With Python》,这本书写得很入门,包含了数理统计知识、Python高级数据结构的使用、数据可视化,很实用的一本书。

《Machine learning A Probabilistic Perspective》,这本书无需介绍,数据挖掘的经典书籍。

《CS231n Convolutional Neural Network for Visual Recognition》,这是斯坦福大学的一门关于卷积神经网络在视觉识别中的应用,虽然标题强调了CNN,但是课程内容将近一半是讲了深度学习的基础原理与实践技巧,很实用。


以上是我看过的觉得挺有帮助的书籍,至于其他书籍,由于我还没认真看过,所以这里也不敢冒昧列出。


最后分享摘自著名作家余秋雨的书籍《千年一叹》中的金句:

• 干净的痛苦一定会沉淀,沉淀成悠闲,悠闲是痛苦的补偿,痛苦是悠闲的衬垫。


 
来源: 张泽旺 深度学习每日摘要
智造家 查看全部

10.1_.jpg

 前言:本期文章是《我与数据打交道》系列的第三篇,也是最后一篇。后面几期文章的重心是神经网络,敬请关注。


小时候,我会经常听见大人们说:小孩怎么这么爱挑食?却很少有听说大人们也爱挑食,大概是因为大人们买的都是他们愿意吃的东西吧。


“己所不欲,勿施于人;己所之欲,慎施于人”。这句话的意思大概是,不要把自己主观上的想法强推给他人,反过来说,就是“己所之欲,亦施于人”,某些无良网站的某些无良广告大概就是奉行这条准则的吧。


只要有互动的地方,就会有推荐存在的合理性。现在越来越多的网站都在提供智能的推荐服务,例如宣称最关心用户的某新闻类APP就使用了智能推荐对读者推送其关心的头条新闻;某电商平台上浏览了一个物品以后,下方会出现你可能还喜欢的物品栏;在搜索框里输入“微信”两个字时,下方已经出现了一系列推荐词汇,如“微信网页版”,“微信公众号”等等。推荐似乎已经融入了互联网的各个角落,尽管目前来看,推荐的效果仍然是良莠不齐。不过,目光放远一点,搜索引擎的未来也许就是更加智能的推荐系统吧。


那什么是推荐系统呢?推荐是数据的产物,没有数据就没有推荐。推荐系统的工作原理通常分为两大类,内容过滤和协同过滤。下面以电商网站购物为例,谈谈二者的区别。


例如顾客A购买了商品1,如果商品2与商品1相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于内容过滤的推荐方法,重点关注的是商品本身,而非顾客。


再例如顾客A购买了商品1,顾客B购买了商品2,如果顾客A和顾客B在很多属性上相似度非常高,那么推荐系统自然会想到把商品2推荐给顾客A。这就是基于协同过滤的推荐方法,重点关注的是顾客本身,而非商品。


为了使得推荐系统更加智能化,通常会结合内容过滤和协同过滤一起使用。总之,就是说要想有一个优秀的推荐系统,需要同时考虑内容过滤和协同过滤。前几天有读者希望我推荐一些数据挖掘方面的资源,我考虑了一下,第一我可能不知道你以前偏爱哪种风格的书籍,第二我也不清楚你是否和我有一样的口味,于是我接下来的推荐所导致的资源浏览次数以及读者口碑满意度可能并不太理想了,不过还是尝试一下吧。


《Think Bayes》,这本书对贝叶斯理论讲得很详细,并且随书插入了相关的Python代码,适合一边学习,一边实践。


《Data Science From Scratch First Principles With Python》,这本书写得很入门,包含了数理统计知识、Python高级数据结构的使用、数据可视化,很实用的一本书。

《Machine learning A Probabilistic Perspective》,这本书无需介绍,数据挖掘的经典书籍。

《CS231n Convolutional Neural Network for Visual Recognition》,这是斯坦福大学的一门关于卷积神经网络在视觉识别中的应用,虽然标题强调了CNN,但是课程内容将近一半是讲了深度学习的基础原理与实践技巧,很实用。


以上是我看过的觉得挺有帮助的书籍,至于其他书籍,由于我还没认真看过,所以这里也不敢冒昧列出。


最后分享摘自著名作家余秋雨的书籍《千年一叹》中的金句:

• 干净的痛苦一定会沉淀,沉淀成悠闲,悠闲是痛苦的补偿,痛苦是悠闲的衬垫。


 
来源: 张泽旺 深度学习每日摘要
智造家
385 浏览

我与数据打交道(二)

机械自动化类 机械设计 2016-12-05 14:11 发表了文章 来自相关话题

 前言:前几天有读者来信反应要我推荐一些深度学习的教材或资源,我想留到下一期再推荐给大家。今天文章的主要内容还是来聊聊我与数据打交道的感悟。



提到数据这个词,我们脑海中的第一反应会是什么呢?也许有人会想到:“我今年已经多少岁了”,“我的生日是几月几号”,“我朋友圈中有多少个好友了”,“今天我在朋友圈收到了多少个点赞或评论”,“我的公众号粉丝昨天涨了多少”,“天呐,这个月我竟然消费了多少人民币”,“只剩多少天我就可以熬完期末考试周了”等等。
 
我想每个人都存储着自己独有的海量数据,每个人都有对自己的数据不同的处理方式,也许,每个人都承担着自己王国里的数据科学家的角色。



或许大家都会感到惊叹,我从来不处理数据,怎么可能成为了数据科学家。殊不知,如果我们把万事万物量化一番,我们每个人时时刻刻都在与数据打交道。
 
例如,出租车司机可以根据历史见闻和当下热点来预判什么时间段什么地点有可能拉到更多的乘客,因为出租车司机心中储存着以往拉客的时间地点等数据信息;资深医生可以根据自己以往的诊断经验来辅助判断如何对当下的病人进行对症下药,因为他们可以根据病人的生理特征以及病理反应去大脑中检索自己以往遇到的类似病人的数据;经验丰富的老师可以根据一个学生的平时考试成绩来对他高考成绩进行大概的估计,因为他们可以根据往届无数学生的平时表现以及高考得分来做一个合理的预测。
 
阅历是一种财富,如果把这些抽象的阅历量化成具体的数据,那么数据无疑是当今最重要的财富,至少数据存在机器里要比存在人脑里可靠,因为人可能会犯糊涂,而机器不会。



有人说,数据科学家是21世纪最性感的职业,其实,在我看来,数据科学家从古至今都是很性感的职业,只不过在21世纪变得接地气起来。随着各种数据挖掘的框架、工具包、软件的发布,数据科学的门槛已经变得越来越低;另一方面,随着大数据时代的到来,数据科学的重要性也已经日益彰显。那什么是数据科学呢?我想谈谈我的理解。



我觉得从事数据科学的应该是一类比搞纯编程的人更懂统计学,比搞纯统计的人更懂计算机科学的人。数据科学是一门综合性学科,囊括了计算机科学、数理统计、专业知识三大板块。
 
 
现在大多数数据挖掘教材都只会谈论前两点——计算机科学和数理统计,因为这两点放在任何问题里面都是最基础的通用工具,而对于第三点——专业知识是几千页纸都讲不完的,不同的领域会遇到不同的问题,具体问题具体分析,活学活用吧。



继续数据分析软件的话题。在网上有一句段子叫做“人生苦短,我用Python”,在没有接触Python之前,我也觉得这句段子估计也只是个段子而已。后来,上手了Python以后越来越觉得它极其简化了我的工作,正如Unix系统的一句哲学“Keep it simple,stupid”,Python语言具有上手快并且可读性很好的优点,而且它是一个完完全全面向对象的语言,在很大程度上能够提高项目的操作效率。那为什么要使用Python作为我的数据分析语言呢?
 
我觉得原因主要有三点:
 
第一,Python是一种免费的脚本语言,并且Linux系统对其支持十分友好,而我通常是在Linux环境下工作;
 
第二,Python具有一套完善的科学计算核心库,如Numpy、matplotlib、pandas等,除此之外,还有很强大的机器学习库Theano、Tensorflow也都是基于Python语言,这些完善的框架使得借助Python进行数据分析具有先天的优势;
 
第三,Python的用户群也是十分庞大的,各种基于Python的新框架层出不穷,而且各大互联网公司均有在使用Python进行数据挖掘,因此遇到什么问题一般都可以在网上得到正确的指导。
 
 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家 查看全部

9.1_.jpg

 前言:前几天有读者来信反应要我推荐一些深度学习的教材或资源,我想留到下一期再推荐给大家。今天文章的主要内容还是来聊聊我与数据打交道的感悟。



提到数据这个词,我们脑海中的第一反应会是什么呢?也许有人会想到:“我今年已经多少岁了”,“我的生日是几月几号”,“我朋友圈中有多少个好友了”,“今天我在朋友圈收到了多少个点赞或评论”,“我的公众号粉丝昨天涨了多少”,“天呐,这个月我竟然消费了多少人民币”,“只剩多少天我就可以熬完期末考试周了”等等。
 
我想每个人都存储着自己独有的海量数据,每个人都有对自己的数据不同的处理方式,也许,每个人都承担着自己王国里的数据科学家的角色。



或许大家都会感到惊叹,我从来不处理数据,怎么可能成为了数据科学家。殊不知,如果我们把万事万物量化一番,我们每个人时时刻刻都在与数据打交道。
 
例如,出租车司机可以根据历史见闻和当下热点来预判什么时间段什么地点有可能拉到更多的乘客,因为出租车司机心中储存着以往拉客的时间地点等数据信息;资深医生可以根据自己以往的诊断经验来辅助判断如何对当下的病人进行对症下药,因为他们可以根据病人的生理特征以及病理反应去大脑中检索自己以往遇到的类似病人的数据;经验丰富的老师可以根据一个学生的平时考试成绩来对他高考成绩进行大概的估计,因为他们可以根据往届无数学生的平时表现以及高考得分来做一个合理的预测。
 
阅历是一种财富,如果把这些抽象的阅历量化成具体的数据,那么数据无疑是当今最重要的财富,至少数据存在机器里要比存在人脑里可靠,因为人可能会犯糊涂,而机器不会。



有人说,数据科学家是21世纪最性感的职业,其实,在我看来,数据科学家从古至今都是很性感的职业,只不过在21世纪变得接地气起来。随着各种数据挖掘的框架、工具包、软件的发布,数据科学的门槛已经变得越来越低;另一方面,随着大数据时代的到来,数据科学的重要性也已经日益彰显。那什么是数据科学呢?我想谈谈我的理解。



我觉得从事数据科学的应该是一类比搞纯编程的人更懂统计学,比搞纯统计的人更懂计算机科学的人。数据科学是一门综合性学科,囊括了计算机科学、数理统计、专业知识三大板块。
 
 
现在大多数数据挖掘教材都只会谈论前两点——计算机科学和数理统计,因为这两点放在任何问题里面都是最基础的通用工具,而对于第三点——专业知识是几千页纸都讲不完的,不同的领域会遇到不同的问题,具体问题具体分析,活学活用吧。



继续数据分析软件的话题。在网上有一句段子叫做“人生苦短,我用Python”,在没有接触Python之前,我也觉得这句段子估计也只是个段子而已。后来,上手了Python以后越来越觉得它极其简化了我的工作,正如Unix系统的一句哲学“Keep it simple,stupid”,Python语言具有上手快并且可读性很好的优点,而且它是一个完完全全面向对象的语言,在很大程度上能够提高项目的操作效率。那为什么要使用Python作为我的数据分析语言呢?
 
我觉得原因主要有三点:
 
第一,Python是一种免费的脚本语言,并且Linux系统对其支持十分友好,而我通常是在Linux环境下工作;
 
第二,Python具有一套完善的科学计算核心库,如Numpy、matplotlib、pandas等,除此之外,还有很强大的机器学习库Theano、Tensorflow也都是基于Python语言,这些完善的框架使得借助Python进行数据分析具有先天的优势;
 
第三,Python的用户群也是十分庞大的,各种基于Python的新框架层出不穷,而且各大互联网公司均有在使用Python进行数据挖掘,因此遇到什么问题一般都可以在网上得到正确的指导。
 
 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家
392 浏览

我与数据打交道(一)

机械自动化类 机械设计 2016-12-05 14:06 发表了文章 来自相关话题

 




前言:公众号文章纯粹谈技术貌似不太好,一些复杂的公式也无法支持,插入图片看起来也并不美观,因此以后的文章主要以文字的形式谈谈技术以及感悟。本篇主要回顾一下我与数据分析有过的峥嵘岁月。那些年,为了赶工手抄版或电子版的实验报告插图、为了拿高分不得不让数据看起来更美观所用过的一些数据分析软件的心得体会。



    最近大家都在谈论大数据、信息爆炸等词语,的确,现在正处于信息蓬勃式发展、网络快餐式消费的时代,每天我们每个人为互联网所贡献的比特数至少数亿以上,面对庞大的数据资源,如何充分发掘它们的价值是当下机器学习的热门话题。作为一名普通的在校理工男,太大的数据量我是很难遇到的,我今天只想谈谈那些年,我与小数据打交道的过往点滴。



    回忆起刚刚几年前的时候,我拿到一份粗糙的实验数据,一脸茫然的样子,根本无从下手。还好,那个时候我的第一直觉就是使用Excel来帮助分析数据,当时使用Excel分析数据的好处就是简单粗暴,只要获得了想要的数据,无论是txt格式或者是csv格式,只需要一个按钮即可完美导入所有数据,然后下拉全选,只要熟悉了Excel的一些基本函数操作,对某行某列的数据分析显得如鱼得水了,算术运算、平均数、标准差、最值等等这些都是家常便饭了。
 
 
     当然,如果实验报告中只有光秃秃的几行公式以及统计数据,是不足以吸引老师的眼球的,为了博取高分,数据可视化是数据分析必不可少的亮点。谈起Excel的数据可视化,也就那么几种吧:条形图、柱状图、折线图、甚至三维图,这些图的做法都不难,勾勾就行了。不过,Excel作图有很多限制,一个图的很多属性是难以修改的,因此这种图往实验报告上一放就显得比较平庸甚至会被一些机智的老师嘲笑的。




    这个时候一个数据分析软件就派上用场了,那就是origin科学作图软件,origin与Excel最大的不同点就是它的功能十分庞大,不仅包括了各种统计学工具,而且使用它作出的图形也很美观,而且很多科研论文的图形甚至都是用origin作出来的,足以看出它的地位了。不过,我不太喜欢origin,虽然它功能强大,但是它始终是基于UI界面的,也就是说几乎所有的功能都是通过按钮来实现的,这种操作的优点是很具有人性化,基本上只要你眼睛睁大一点就不会错过某一个强大的功能;但是,从我一个程序员的角度来看,通过按钮操作的不具有可重复操作性,也就是每次作类似图我都要这样点来点去,效率不是很高。
 
 
    人工智能的目的不是消灭人类,而是把人类从纷繁复杂的重复劳动中解放出来,其实编程语言也可以看做一种人工智能,只要第一次写出了分析数据或科学作图的可运行的代码,往后很多重复的工作就可以避免了。



    放弃了学习origin,我便使用了MATLAB作为我的实验报告的主要利器。谈起MATLAB,可能很多人以为它是一个主打仿真的软件,其实不然,MATLAB英文全名是Matrix Laboratory,即矩阵实验室。所谓矩阵实验室,即它是一种线性代数的工具,那自然包括数据处理在内了,并且MATLAB可以作很多类型的图,既美观又富含信息量,一张图如果能做到美观又能传递非常多的信息就已经很成功了,的确,MATLAB可以做到这一点。并且,MATLAB与origin的最大不同之处是它是一种基于命令行的软件,它使用了自带了类似于C语言中一个MATLAB编程语言,任意操作都可以使用代码去表示,无论是数据分析还是科学作图,这样就使得代码的复用性很高,对于类似的操作不用重重复复去点来点去了。而且,MATLAB的用户群非常庞大,所以其社区交流互动非常活跃,遇到什么问题一般只要Google或Baidu一下就可以解决了。



    那么,是不是可以认为MATLAB是最好的数据分析软件呢?
 
 
 
 
 
来源:张泽旺 深度学习每日摘要
智造家 查看全部
 
8.1_.jpg


前言:公众号文章纯粹谈技术貌似不太好,一些复杂的公式也无法支持,插入图片看起来也并不美观,因此以后的文章主要以文字的形式谈谈技术以及感悟。本篇主要回顾一下我与数据分析有过的峥嵘岁月。那些年,为了赶工手抄版或电子版的实验报告插图、为了拿高分不得不让数据看起来更美观所用过的一些数据分析软件的心得体会。



    最近大家都在谈论大数据、信息爆炸等词语,的确,现在正处于信息蓬勃式发展、网络快餐式消费的时代,每天我们每个人为互联网所贡献的比特数至少数亿以上,面对庞大的数据资源,如何充分发掘它们的价值是当下机器学习的热门话题。作为一名普通的在校理工男,太大的数据量我是很难遇到的,我今天只想谈谈那些年,我与小数据打交道的过往点滴。



    回忆起刚刚几年前的时候,我拿到一份粗糙的实验数据,一脸茫然的样子,根本无从下手。还好,那个时候我的第一直觉就是使用Excel来帮助分析数据,当时使用Excel分析数据的好处就是简单粗暴,只要获得了想要的数据,无论是txt格式或者是csv格式,只需要一个按钮即可完美导入所有数据,然后下拉全选,只要熟悉了Excel的一些基本函数操作,对某行某列的数据分析显得如鱼得水了,算术运算、平均数、标准差、最值等等这些都是家常便饭了。
 
 
     当然,如果实验报告中只有光秃秃的几行公式以及统计数据,是不足以吸引老师的眼球的,为了博取高分,数据可视化是数据分析必不可少的亮点。谈起Excel的数据可视化,也就那么几种吧:条形图、柱状图、折线图、甚至三维图,这些图的做法都不难,勾勾就行了。不过,Excel作图有很多限制,一个图的很多属性是难以修改的,因此这种图往实验报告上一放就显得比较平庸甚至会被一些机智的老师嘲笑的。




    这个时候一个数据分析软件就派上用场了,那就是origin科学作图软件,origin与Excel最大的不同点就是它的功能十分庞大,不仅包括了各种统计学工具,而且使用它作出的图形也很美观,而且很多科研论文的图形甚至都是用origin作出来的,足以看出它的地位了。不过,我不太喜欢origin,虽然它功能强大,但是它始终是基于UI界面的,也就是说几乎所有的功能都是通过按钮来实现的,这种操作的优点是很具有人性化,基本上只要你眼睛睁大一点就不会错过某一个强大的功能;但是,从我一个程序员的角度来看,通过按钮操作的不具有可重复操作性,也就是每次作类似图我都要这样点来点去,效率不是很高。
 
 
    人工智能的目的不是消灭人类,而是把人类从纷繁复杂的重复劳动中解放出来,其实编程语言也可以看做一种人工智能,只要第一次写出了分析数据或科学作图的可运行的代码,往后很多重复的工作就可以避免了。



    放弃了学习origin,我便使用了MATLAB作为我的实验报告的主要利器。谈起MATLAB,可能很多人以为它是一个主打仿真的软件,其实不然,MATLAB英文全名是Matrix Laboratory,即矩阵实验室。所谓矩阵实验室,即它是一种线性代数的工具,那自然包括数据处理在内了,并且MATLAB可以作很多类型的图,既美观又富含信息量,一张图如果能做到美观又能传递非常多的信息就已经很成功了,的确,MATLAB可以做到这一点。并且,MATLAB与origin的最大不同之处是它是一种基于命令行的软件,它使用了自带了类似于C语言中一个MATLAB编程语言,任意操作都可以使用代码去表示,无论是数据分析还是科学作图,这样就使得代码的复用性很高,对于类似的操作不用重重复复去点来点去了。而且,MATLAB的用户群非常庞大,所以其社区交流互动非常活跃,遇到什么问题一般只要Google或Baidu一下就可以解决了。



    那么,是不是可以认为MATLAB是最好的数据分析软件呢?
 
 
 
 
 
来源:张泽旺 深度学习每日摘要
智造家