本月累计签到次数:

今天获取 积分

数据分析

数据分析

348 浏览

谈颠覆还太早?加快区块链应用落地或能打破僵局

工业大数据 夜入西风 2017-04-17 11:40 发表了文章 来自相关话题

区块链火了!在人们对于区块链概念还不甚清楚的情况下,各大金融机构以及科技巨头就抢先杀入这一市场,区块链试点应用也正在落地。
虽然区块链技术源于比特币,但是其正在应用到金融、司法、物流等更多的领域中,而有关区块链究竟会给这个社会带来什么、其是否会颠覆金融行业的讨论也正在展开……
区块链将颠覆传统金融行业,这是最近一段时间内我们时常听到的一个观点。
当前,作为比特币底层技术的区块链火了,不是一般的火,全球诸多金融巨头、IT巨头以及互联网巨头都在布局这一市场,有关区块链的收购和融资事件日益增多。
然而,区块链真的就像我们想象中那么“牛”吗?区块链将会颠覆金融以及其他传统行业吗?相信很多人的心中都有这样的疑问。在这个不谈区块链就落伍了的时代,我们缺乏的不是热情而是冷静。
区块链还不成熟,如果将技术成长的周期比作人的成长,那么今天的区块链就好似襁褓中的婴儿。比特币诞生于2009年,作为一种新兴的数字货币,比特币已经经历了数次“死亡”和“重生”,而就是在比特币的震荡发展中,区块链技术却焕发出无限活力,逐渐向其他行业渗透。
虽然当前业界对于区块链的定义仍然存在争论,但是区块链去中心化、不可篡改的特性却得到了基本的认同。也正是基于区块链的这些特性,很多观点认为区块链将因此具备颠覆传统的力量。
区块链协会R3执行董事查理·库伯日前在接受国内媒体采访时表示,在全球经济的各个领域都被新技术“颠覆”的时代,区块链被认为“极有可能”永久改变金融市场,而这些改变正在全球顶级金融机构、监管部门中如火如荼地展开。
信息安全专家、伦敦大学学院密码学家古拉·库尔图瓦则认为,本世纪最重要的科技并非智能手机、社交网站、虚拟现实或无人驾驶汽车,而是区块链。
从区块链“去中心化”和“不可篡改”的特性上看,其确实给传统应用和行业带来了颠覆的可能。在传统的交易中,往往需要一个中心化的机构来解决根本的信任问题,并进行相应的结算。
而作为分布式账本的区块链,意味着将产生一个人人可查看的、不可篡改的公共账本,这种无须信任单个节点且能创建共识网络的方式,被认为有望应用到包括金融、交通、收藏、征信等各个领域。
不过需要看到的是,尽管目前有关区块链的消息不绝于耳,各大金融机构也在积极布局,但是今天的区块链尚处“起步期”,全球落地的区块链应用还少之又少,而具有一定规模的领域更是难寻。
用中国互联网金融协会区块链工作组组长李礼辉的话说,区块链作为一种技术,仍然是处于初级研究阶段,它仍然有非常多的局限性。而区块链金融也处在初级发展阶段,重要的底层技术没有完全突破。
如何加快推进区块链落地?这是摆在整个业界面前的命题,也是一道难题。从技术的发展规律上看,任何一个颠覆性技术都需要从热热闹闹的概念期,走向充满挑战的落地期,随之而来还有整个市场格局的多轮洗牌。
技术的发展高度依赖人才,对于我国的区块链产业而言,人才匮乏也是一个不容回避的问题。
去年年底有一则招聘信息引发了关注,某公司年薪3000万招聘CEO,条件就一条:世界级互联网公司的副总裁级、区块链专家。相比较美国,我国的区块链人才明显缺失,国内的区块链创业公司难以找到相应的研发人员,而不得不从国外引进,这无疑将对我国区块链产业的发展产生影响。
挑战与机遇并存,问题往往要在发展中解决。因而,虽然今天的区块链仍然不够完善、强大, 但是随着越来越多力量进入这一领域,我们有理由相信未来的区块链市场将会给我们带来更多的惊喜。 查看全部
区块链火了!在人们对于区块链概念还不甚清楚的情况下,各大金融机构以及科技巨头就抢先杀入这一市场,区块链试点应用也正在落地。
虽然区块链技术源于比特币,但是其正在应用到金融、司法、物流等更多的领域中,而有关区块链究竟会给这个社会带来什么、其是否会颠覆金融行业的讨论也正在展开……
区块链将颠覆传统金融行业,这是最近一段时间内我们时常听到的一个观点。
当前,作为比特币底层技术的区块链火了,不是一般的火,全球诸多金融巨头、IT巨头以及互联网巨头都在布局这一市场,有关区块链的收购和融资事件日益增多。
然而,区块链真的就像我们想象中那么“牛”吗?区块链将会颠覆金融以及其他传统行业吗?相信很多人的心中都有这样的疑问。在这个不谈区块链就落伍了的时代,我们缺乏的不是热情而是冷静。
区块链还不成熟,如果将技术成长的周期比作人的成长,那么今天的区块链就好似襁褓中的婴儿。比特币诞生于2009年,作为一种新兴的数字货币,比特币已经经历了数次“死亡”和“重生”,而就是在比特币的震荡发展中,区块链技术却焕发出无限活力,逐渐向其他行业渗透。
虽然当前业界对于区块链的定义仍然存在争论,但是区块链去中心化、不可篡改的特性却得到了基本的认同。也正是基于区块链的这些特性,很多观点认为区块链将因此具备颠覆传统的力量。
区块链协会R3执行董事查理·库伯日前在接受国内媒体采访时表示,在全球经济的各个领域都被新技术“颠覆”的时代,区块链被认为“极有可能”永久改变金融市场,而这些改变正在全球顶级金融机构、监管部门中如火如荼地展开。
信息安全专家、伦敦大学学院密码学家古拉·库尔图瓦则认为,本世纪最重要的科技并非智能手机、社交网站、虚拟现实或无人驾驶汽车,而是区块链。
从区块链“去中心化”和“不可篡改”的特性上看,其确实给传统应用和行业带来了颠覆的可能。在传统的交易中,往往需要一个中心化的机构来解决根本的信任问题,并进行相应的结算。
而作为分布式账本的区块链,意味着将产生一个人人可查看的、不可篡改的公共账本,这种无须信任单个节点且能创建共识网络的方式,被认为有望应用到包括金融、交通、收藏、征信等各个领域。
不过需要看到的是,尽管目前有关区块链的消息不绝于耳,各大金融机构也在积极布局,但是今天的区块链尚处“起步期”,全球落地的区块链应用还少之又少,而具有一定规模的领域更是难寻。
用中国互联网金融协会区块链工作组组长李礼辉的话说,区块链作为一种技术,仍然是处于初级研究阶段,它仍然有非常多的局限性。而区块链金融也处在初级发展阶段,重要的底层技术没有完全突破。
如何加快推进区块链落地?这是摆在整个业界面前的命题,也是一道难题。从技术的发展规律上看,任何一个颠覆性技术都需要从热热闹闹的概念期,走向充满挑战的落地期,随之而来还有整个市场格局的多轮洗牌。
技术的发展高度依赖人才,对于我国的区块链产业而言,人才匮乏也是一个不容回避的问题。
去年年底有一则招聘信息引发了关注,某公司年薪3000万招聘CEO,条件就一条:世界级互联网公司的副总裁级、区块链专家。相比较美国,我国的区块链人才明显缺失,国内的区块链创业公司难以找到相应的研发人员,而不得不从国外引进,这无疑将对我国区块链产业的发展产生影响。
挑战与机遇并存,问题往往要在发展中解决。因而,虽然今天的区块链仍然不够完善、强大, 但是随着越来越多力量进入这一领域,我们有理由相信未来的区块链市场将会给我们带来更多的惊喜。
436 浏览

成功的大数据项目需要的七个步骤

工业大数据 夜入西风 2017-04-17 10:31 发表了文章 来自相关话题

你一定构想过一个或几个自己觉得很靠谱的数据项目或业务,然而最后你没有去做,因为你不知道真的可以把它做成功。
现在数据哥就送您一本秘籍:《七步成就大数据项目》,助你完成大数据项目,出任CEO,赢取白富美,走上人生巅峰。
为了验证这本秘籍有多靠谱,我拿一个接地气的案例来展开。
你的理论:用twitter数据预测XX行业趋势。

终极目标:卖钱!
本秘籍假设的项目用AWS来实现,并非给AWS打广告,无他,但手熟尔。
第1步
获取数据
在开始做事之前,你需要证明你的理论可行,要做到这一点,你必须收集数据。
1.如何获取数据?
twitter的数据可以通过公共API来访问,你要做的只是用你最熟悉的编程语言,比如JAVA,写一个可以下载用户推文的小程序。
选择一个领域,比如教育,运行你写的程序,下载这个领域下的所有KOL的推文,然后你就获得了大量的推文数据。至于粉丝数量达到什么样的级别才算KOL,你自己设定。

如果你选择的不是教育领域而是大数据领域,那么恭喜你,你中奖了!因为KDNuggets有一个现成的twitter大数据领域影响力列表:
http://www.kdnuggets.com/2016/ ... .html
如果你想在云端执行此操作,您可以启动一个简单的AWS EC2 Linux instance(nano或micro),并运行您的软件。
2.如何存储数据?

存储数据的最佳方法是使用简单的“.csv”格式。每行一行,包括推文的文字和元信息。

在这个例子中,你的元信息应该包括人、时间、回复、转发和点赞。
完成后,将文件上传到AWS S3上。
3.提取多少数据?
我的建议是在合理的时间内尽可能多地获取数据,让你的程序尽情地跑吧。自己生的程序,不多跑几天多浪费,是吧?需要注意的是,twitter有严格的API规则,在一定时间内可以查询一定数量的数据,所以你还不能让你亲生程序撒开了跑,否则过不了多长时间就会请求超时。
不管怎样,你能爬到几个月的twitter历史数据应该是够够的了。要获得多少数据并没有一个标准,你高兴就好。
如果你用来跑数据的机器很渣,那还是少爬一点吧,免得尴尬。
第2步
选择合适的分析工具
爬到数据后,你需要选择合适的分析工具进行分析。你认为你需要什么分析功能?列一个清单,然后筛选能满足你需求的工具。
你要牢记一个宗旨:好吃不贵!
不好意思,好用不贵!
您可以用Orange、Rapid Miner或Knime等工具,如果你觉得数据哥给你推荐这些现成的工具是对你技术的极大侮辱,那么请自己写分析。对数据分析来讲,Python和R很不错,如果你嫌弃它们,想用Matlab,数据哥还是那句话:你高兴就好。
第3步
证明你的理论
有了数据和工具,你就可以拿起数据的武器开疆拓土了!是时候用你的数据来证明你的理论不是信口胡诌了!
首先用你的数据来证明一个你已经知道的趋势。比如去百度一个或者谷歌一个已经被报道很多次的趋势报告,然后创建分析流程。
如果分析结果符合你指定的“老”趋势,那么说明你的项目目前为止没有跑偏,那么继续查找并验证“老”趋势吧!
在进行下一步之前,你需要确定您的容错率是多少,0%的错误率绝对不现实,别跟自己过不去。
第4步
找出你的商业模式
在技术上跑通之后,你应该先退后一步,找出您的商业模式。

问问自己:

你做的是什么?

你需要什么资源?

谁是你的潜在客户?

你能为客户提供什么价值?

你如何才能将产品卖给他们?
客户付钱是为了得到什么价值?
所有这些都想清楚之后,再进行下一步。如果有某些问题还没有想清楚,但你不想浪费时间,想直接进行下一步,数据哥还是那句话:你高兴就好!
第5步
构建最小可行产品
在用技术证明你的理论可行之后,现在就可以开始构建一个最简化可行产品(Minimum Viable Product,简称MVP)的第一个版本了。构建最简化可行产品的目标是构建一个只提供核心功能的解决方案来快速检验你的产品或方向是否可行。如果你的假设得到了验证,再投入资源大规模进入市场;如果没有通过,那这就是一次快速试错,尽快调整方向。
想验证你炒的菜能不能吃,一个西红柿炒鸡蛋就够了,不需要做瑶柱双菇蒸豆腐。同理,验证你的产品可行,要摒弃那些花哨的功能,专注于您需要实现的主要功能,在以后的产品更新迭代中再扩展功能。
自动化和监测所有内容
最简化可行产品通常不仅缺少功能,还比较不智能,因此你需要尽可能多地把它自动化。让产品自动上传数据到S3、编写自动化脚本、自动开始分析数据、将下载脚本连接到RDS数据库、动态读取影响力列表。能自动化的全部自动化,自动创建API来提取和存储数据。
你需要知道你下一步应该开发什么东西,不只是在新功能方面,还涉及到平台修复和提高运行速度。你需要设置日志和监测系统,监测从twitter爬取数据的过程和往S3上传数据的过程,记录分析流程所用的时间和其他统计信息。
你也可以用像Nagios这样的工具来记录服务器统计信息,如CPU、RAM、network等。
同时你要记录用户正在做什么,每当用户使用用户界面的特定功能时,在日志中写上一行。
第7步
不断迭代
完成了前面的6步,你的MVP 1.0应该就能马不停蹄地给你赚钱了。同时你也全面地掌握了你的平台上的信息:
1.  爬取数据的速度;

2.  数据存储和分析的性能;

3.  客户在做什么。
由于你设置了全面的日志记录,产品中的所有缺点你都能直观地看出来。接下来就是进一步提升系统的时候了。
1.  根据日志来优化系统的整体性能和稳定性;

2.  扩展新功来为客户提供更多价值。
结论
如此看来,把想法变成一个成功的项目真的很简单,只需要7步:
1.  获取数据;

2.  选择合适的分析工具;

3.  用科学验证你的理论;

4.  想出你的商业模式;

5.  构建最简化可行产品;

6.  自动化和监测所有内容;

7.  不断迭代。
这7个步骤将产品的开发过程化繁为简,帮您设定优先事项,充分利用时间。

  查看全部
你一定构想过一个或几个自己觉得很靠谱的数据项目或业务,然而最后你没有去做,因为你不知道真的可以把它做成功。
现在数据哥就送您一本秘籍:《七步成就大数据项目》,助你完成大数据项目,出任CEO,赢取白富美,走上人生巅峰。
为了验证这本秘籍有多靠谱,我拿一个接地气的案例来展开。
你的理论:用twitter数据预测XX行业趋势。

终极目标:卖钱!
本秘籍假设的项目用AWS来实现,并非给AWS打广告,无他,但手熟尔。
第1步
获取数据
在开始做事之前,你需要证明你的理论可行,要做到这一点,你必须收集数据。
1.如何获取数据?
twitter的数据可以通过公共API来访问,你要做的只是用你最熟悉的编程语言,比如JAVA,写一个可以下载用户推文的小程序。
选择一个领域,比如教育,运行你写的程序,下载这个领域下的所有KOL的推文,然后你就获得了大量的推文数据。至于粉丝数量达到什么样的级别才算KOL,你自己设定。

如果你选择的不是教育领域而是大数据领域,那么恭喜你,你中奖了!因为KDNuggets有一个现成的twitter大数据领域影响力列表:
http://www.kdnuggets.com/2016/ ... .html
如果你想在云端执行此操作,您可以启动一个简单的AWS EC2 Linux instance(nano或micro),并运行您的软件。
2.如何存储数据?

存储数据的最佳方法是使用简单的“.csv”格式。每行一行,包括推文的文字和元信息。

在这个例子中,你的元信息应该包括人、时间、回复、转发和点赞。
完成后,将文件上传到AWS S3上。
3.提取多少数据?
我的建议是在合理的时间内尽可能多地获取数据,让你的程序尽情地跑吧。自己生的程序,不多跑几天多浪费,是吧?需要注意的是,twitter有严格的API规则,在一定时间内可以查询一定数量的数据,所以你还不能让你亲生程序撒开了跑,否则过不了多长时间就会请求超时。
不管怎样,你能爬到几个月的twitter历史数据应该是够够的了。要获得多少数据并没有一个标准,你高兴就好。
如果你用来跑数据的机器很渣,那还是少爬一点吧,免得尴尬。
第2步
选择合适的分析工具
爬到数据后,你需要选择合适的分析工具进行分析。你认为你需要什么分析功能?列一个清单,然后筛选能满足你需求的工具。
你要牢记一个宗旨:好吃不贵!
不好意思,好用不贵!
您可以用Orange、Rapid Miner或Knime等工具,如果你觉得数据哥给你推荐这些现成的工具是对你技术的极大侮辱,那么请自己写分析。对数据分析来讲,Python和R很不错,如果你嫌弃它们,想用Matlab,数据哥还是那句话:你高兴就好。
第3步
证明你的理论
有了数据和工具,你就可以拿起数据的武器开疆拓土了!是时候用你的数据来证明你的理论不是信口胡诌了!
首先用你的数据来证明一个你已经知道的趋势。比如去百度一个或者谷歌一个已经被报道很多次的趋势报告,然后创建分析流程。
如果分析结果符合你指定的“老”趋势,那么说明你的项目目前为止没有跑偏,那么继续查找并验证“老”趋势吧!
在进行下一步之前,你需要确定您的容错率是多少,0%的错误率绝对不现实,别跟自己过不去。
第4步
找出你的商业模式
在技术上跑通之后,你应该先退后一步,找出您的商业模式。

问问自己:

你做的是什么?

你需要什么资源?

谁是你的潜在客户?

你能为客户提供什么价值?

你如何才能将产品卖给他们?
客户付钱是为了得到什么价值?
所有这些都想清楚之后,再进行下一步。如果有某些问题还没有想清楚,但你不想浪费时间,想直接进行下一步,数据哥还是那句话:你高兴就好!
第5步
构建最小可行产品
在用技术证明你的理论可行之后,现在就可以开始构建一个最简化可行产品(Minimum Viable Product,简称MVP)的第一个版本了。构建最简化可行产品的目标是构建一个只提供核心功能的解决方案来快速检验你的产品或方向是否可行。如果你的假设得到了验证,再投入资源大规模进入市场;如果没有通过,那这就是一次快速试错,尽快调整方向。
想验证你炒的菜能不能吃,一个西红柿炒鸡蛋就够了,不需要做瑶柱双菇蒸豆腐。同理,验证你的产品可行,要摒弃那些花哨的功能,专注于您需要实现的主要功能,在以后的产品更新迭代中再扩展功能。
自动化和监测所有内容
最简化可行产品通常不仅缺少功能,还比较不智能,因此你需要尽可能多地把它自动化。让产品自动上传数据到S3、编写自动化脚本、自动开始分析数据、将下载脚本连接到RDS数据库、动态读取影响力列表。能自动化的全部自动化,自动创建API来提取和存储数据。
你需要知道你下一步应该开发什么东西,不只是在新功能方面,还涉及到平台修复和提高运行速度。你需要设置日志和监测系统,监测从twitter爬取数据的过程和往S3上传数据的过程,记录分析流程所用的时间和其他统计信息。
你也可以用像Nagios这样的工具来记录服务器统计信息,如CPU、RAM、network等。
同时你要记录用户正在做什么,每当用户使用用户界面的特定功能时,在日志中写上一行。
第7步
不断迭代
完成了前面的6步,你的MVP 1.0应该就能马不停蹄地给你赚钱了。同时你也全面地掌握了你的平台上的信息:
1.  爬取数据的速度;

2.  数据存储和分析的性能;

3.  客户在做什么。
由于你设置了全面的日志记录,产品中的所有缺点你都能直观地看出来。接下来就是进一步提升系统的时候了。
1.  根据日志来优化系统的整体性能和稳定性;

2.  扩展新功来为客户提供更多价值。
结论
如此看来,把想法变成一个成功的项目真的很简单,只需要7步:
1.  获取数据;

2.  选择合适的分析工具;

3.  用科学验证你的理论;

4.  想出你的商业模式;

5.  构建最简化可行产品;

6.  自动化和监测所有内容;

7.  不断迭代。
这7个步骤将产品的开发过程化繁为简,帮您设定优先事项,充分利用时间。

 
365 浏览

数据分析与体育的结合,事半工倍

智能科技类 不知道#99 2017-02-08 16:26 发表了文章 来自相关话题

在运动鞋底加上数据芯片,用来收集每次的运动规律,可以事半工倍。









穿上这种鞋子,着力点,速度,力,失败的数据,成功的数据,都记录,分析,想输都困难。 查看全部

QQ图片20170208160438.jpg

在运动鞋底加上数据芯片,用来收集每次的运动规律,可以事半工倍。
QQ图片20170208160319.jpg


QQ图片20170208162340.jpg

穿上这种鞋子,着力点,速度,力,失败的数据,成功的数据,都记录,分析,想输都困难。
410 浏览

译文 :如果我们心存偏见,还能做好数据分析吗

其它类 王五#1556 2017-01-06 11:08 发表了文章 来自相关话题

马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。

我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

原文翻译:
新闻记者和政策制定者正渐渐意识到一个问题,某些最有前途、最强大的计算工具存在巨大的缺陷。随着预测分析进入越来越多的领域——推送广告;开拓新市场;作出重要决定,比如让谁得到贷款,让谁得到新工作,甚至是把谁送进监狱和暗杀谁这样的伦理道德决定——某些特定群体遭受歧视和偏见的迹象日益增多。

 文着重探讨分析中这种普遍趋势的技术和社会层面。我研究了分析在执行过程中为什么难以做到公平公正,以及这说明分析处于怎样的社会背景。关于这个话题,美国计算机协会(ACM)举办的一场研讨会和我围绕这场研讨会所做的研究为我提供了一些有用见解。
分析无处不在
预测分析似乎证实了马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。这些压力推高了数据科学家(数据科学不只是统计学,但拥有深厚的统计学背景是必要条件)的薪水,并且使得市场调研公司Gartner作出了数据科学家将大量短缺的预测。

分析(更准确地说是模拟)甚至在近期热门电影《萨利机长》(Sully)中扮演了重要角色,但基本上是反派。该片说明了人类社会日益依赖算法的一个最令人不安的方面:身居高位、权力巨大的政策制定者有时会让算法替他们作出判断,而他们根本不明白算法的运行机制和可能造成的后果。在《萨利机长》中,调查员把一条事关重大的错误信息输入系统,还用不切实际的假设情境来训练系统。当这些计算的受害者对模拟背后的假设情境提出质疑时,调查员自鸣得意地说:“我们运行了20次模拟!”他们没有意识到,这20次模拟都是建立在同样的错误假设之上,将会得出同样的错误结论。当受害者要求查看详细的输入数据时,他们打官腔拒绝了这一要求。虽然《萨利机长》可能精心安排了事件背后的一些事实,但对于分析在现代生活中的使用,该片为我们提供了很多经验教训。

需要指出的是,分析可以帮助作出正确决策。在我参加ACM的那场研讨会期间,我的信用卡提供商进行的分析发现,有人窃取了我的信用卡信息,试图盗用我的卡。他们的专家分析系统立刻冻结了这张卡,没有造成金钱损失。虽然在旅行途中发现我的卡被冻结,给我带来了不便,但我还是感激那些保护了我和银行的分析工具。

使用分析的大多数公司希望通过减少主观性来减少偏见。偏见一直都存在,不需要计算机。越来越多的研究表明,工作面试无法有效地判定谁能做好这份工作,原因主要在于我们面对面评估应聘者时作出的仓促决定,这很容易受到内隐偏见的影响。对大脑运作的研究显示,白人和亚洲人在潜意识里对黑人抱有根深蒂固的不信任感,这使得改善警察执法实践的努力面临着更大的困难(举个例子)。偏见很早就开始影响人们的生活。黑人学生和白人学生在学校里做出同样的违规行为,黑人学生更容易受到处罚。我们从小就受到由来已久的偏见影响。

 不幸的是,预测分析常常重现社会的偏见,因为它们的创造者是带有偏见的人,或者因为它们使用带有偏见的历史数据进行训练。

一个广为人知、无可争辩的例子来自于拉坦娅·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隐私研究员,她最为人所知的,是证明了公共记录可以被用来揭露美国马萨诸塞州州长威廉·维尔德(William Weld)的医疗信息。这促使健康隐私法律作出了重大修改。她在2013年进行的研究显示,在谷歌(Google)上搜索美国黑人的常用名,往往会出现给出此人逮捕记录的广告。搜索白人的常用名,则往往不会出现这样的广告。但是人事经理、房东等人在搜索潜在候选人时,如果出现这样的广告,会很容易被吓阻,尤其是当一群求职者中只有黑人应聘者的名字导致这种广告出现的时候。

很多政策行动组织都签署了一份《大数据时代民权原则》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但没有说具体如何做到这一点。在美国,恐怕会很难让政策制定者关注到这个问题,因为新上台的当权者们自己就公开宣扬偏见和歧视,但有道德心的程序员及其雇主将会继续寻找解决办法。

让我们看看这对弄清分析中的偏见意味着什么。

成为有辨别力的思考者

我记得一位小学老师对她的学生们说,她希望我们成为“有辨别力的思考者”。区别对待有时是好事。如果某人曾经借钱挥霍,购买自己买不起的昂贵物品,那么不给他贷款对银行和公众都有好处。问题是我们用什么标准来加以区别。

 ACM研讨会的与会者们对道德标准进行了一番讨论。分析专业人士是否应该建立某种具体的道德标准来控制分析的使用?或者,专家是否应该以公开透明为目标,让公众了解决策的制定过程,而不建立具体的道德标准?

 我认为,最好的做法是坚持被广泛接受的社会标准。例如,在上世纪60年代,美国以宪法第一修正案为依据,禁止民族、种族和宗教歧视。后来,性别和残疾被加入保护行列,然后是性取向(在22个州的管辖范围内),近期则是性别认同(也就是跨性别者和非二元性别者)。1948年的联合国《世界人权宣言》在第二条中呼吁人人平等,“不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属之国家或领土的政治、法律管辖或者国际地位之不同而有所区别,无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下”。这里的“其他身份”表述模糊,但其余部分相当明确具体。

简而言之,就是由参与公共讨论的政治实体和政策制定者来决定什么可以区别对待,什么不可以。在某些情况下,计算机算法可能会使用种族和性别这样的标准来作出雇佣等决定,哪怕使用这些标准并不合法。

 计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

 1976年出版的一本经典论著《计算机能力与人类理性:从判断到计算》(Computer Power and Human Reason: From Judgment To Calculation)也传达了同样的讯息。该书作者约瑟夫·魏泽鲍姆(Joseph Weizenbaum)提出了一条关于人工智能的重要原则。他说,问题不在于计算机能不能够作出事关人类重要活动的决定,而在于它们应不应该作出这样的决定。

 因此,我认为,很多法律和政策声明已经明确了我们应该警惕偏见的领域。本文将会逐渐说明,这些政策考量会推动技术方面的决定。

数据科学家凯茜·奥尼尔(Cathy O'Neil)在深受好评的《数学杀伤性武器》(Weapons of Math Destruction)一书中,提出了几个令人信服的观点,包括:

 由于企业是从他人那里购买数据或分析的,数据的收集和处理常常是以层级为单位发生的。算法最初的不透明性会随着层级的累加而增大,每个层级引入的错误因素也是如此。

 将我们与趋势进行比较的算法,最终会用他人的行为来评判我们,而不是用我们自己的行为来评判我们。我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

 一旦某人被划入表现糟糕者的行列,被认为是不可靠的员工、潜在的罪犯或者信用不好的人,那么算法就会进行区别对待,使他失去机会,越来越把他推向贫穷和缺乏机会的境地。

奥尼尔的弥补方案不只是检测偏见,还包括通过一个广泛的社会项目来评估社会的目标,把对抗经济压力的公平性考虑在内,利用算法帮助弱势者,而不是惩罚他们。

 透明性的阴暗面

 透明性可以说是我们这个时代的战斗口号:让所有人看到你的决策过程!全球已有70个国家加入了开放政府伙伴关系联盟(Open Government Partnership),承诺让公民参与财政预算和法律法规的制定。其中的大多数国家一如往常,继续面对着战争、腐败和其他问题。

 但先不要对透明性过于悲观。从很多方面来说,透明性正在提升,这得益于更高的教育水平和新的传播媒体。开源运动大大加强了程序的透明性。开源软件或其他措施能否使预测分析更加公平呢?

 利用分析对人进行分类的企业担心,被分析的对象如果了解输入数据的标准,就可以把分析系统玩弄于股掌之上。很多标准涉及到难以改变的重要生活特征,比如收入。但也有很多标准似乎只是更重要特征的简单代表,这就有可能让精明的分析对象弄虚作假。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

 因此,那些密切关注分析使用状况的人承认,透明性并不总是好事。一些专家反对在分析中使用简单的二元标准,说这种标准过于粗糙,无助于作出正确决定。我认为,无数家机构的经历已经证明,这样的粗糙标准很容易被看穿。分析对象的状况在不断变化,所以标准必须与时俱进。

 对于加强透明性的努力来说,还有另一个障碍需要克服:一些公司的分析会变来变去,谷歌的排名算法就是如此。外人不可能透彻了解每一项变动。另外,机器学习技术往往会生成令人费解的决策树,就连编写这些程序的人自己都搞不明白。

 另一方面,固定不变的算法可能会逐渐偏离正确的预测,因为作为输入数据一部分的生活状况在不断变化。这解释了道琼斯工业平均指数(DJIA)为什么时不时地改变包含的成分股公司:在19世纪80年代构成美国经济主要部分的那些公司要么已经消亡,要么变得无足轻重,而现代经济的主要构成部分在那时甚至根本无从想象(最初的12间DJIA成分股公司,现在只剩下了通用电气这一间)。出于类似的原因,分析必须时常用新的、准确的输入数据进行重新计算。当分析产品被出售时,我们又会遇到另一种风险:它们可能会逐渐偏离现实,沉沦于过去,从而对依靠它们的公司和被它们错误分类的人造成负面影响。

 力量的不平衡也扮演了非常重要的角色。本文稍后会以一篇论述刑事量刑的著名文章为背景,向大家说明,从外部对算法发起挑战是极为困难的,因为部署算法的机构比作为分析对象的个人要远为强大得多。亚历克斯·罗森布拉特(Alex Rosenblat)、塔玛拉·克尼斯(Tamara Kneese)和丹娜·博伊德(DanahBoyd)撰写的一篇文章指出,要赢得歧视诉讼是很难的。也许,实现公平公正的最有效方法是让企业把他们的分析交给某个评审委员会审查,类似于评审学术研究的机构审查委员会(IRB),由很多利益相关者组成,包括可能受到分析不利影响的人。这样的委员会是否有能力评估深奥的算法还是个未知数,但至少他们能告诉程序员,某些输入数据是否存在固有偏见。

 弥补措施

 在学术界以外,批评预测分析存在偏见的人一直致力于揭露那些偏见(请注意,他们也在使用同样的机器学习工具!)。他们常常暗示,应该停止使用分析工具来作出对人类产生深远影响的决定。分析的预期影响是一个标准,企业可以据此判断是否信赖分析。企业利用A/B测试来确定网站访客点击绿色图标的次数是否超过蓝色图标,看上去没有什么不好。另一方面,Facebook通过信息推送来影响用户情绪的做法被广泛视作为不道德行为。

 所以说,社会尚未弄清楚分析的适当角色,或者在分辨不良后果方面还不够熟练——技术专家Meng Weng Wong称此为“误算法”(malgorithm)。而分析实在太过强大,太有用处,我们也不能乐于拒绝。

 一种弥补方案是让用户有机会挑战分析结果,就像几十年前美国联邦贸易委员会(Federal Trade commission)颁布的、被很多公司以各种形式采纳的“公平信息实践原则”(FIPPS)那样。企业可以通过任何方式作出决定,但过程必须透明,并赋予个人挑战该决定的权利。欧盟已经将这一原则写入了2016年4月的《数据保护指令》,该指令对上世纪80年代的隐私法规进行了补充更新。此外,普林斯顿大学的一个团队也为那些希望打造公平算法的程序员编制了一份指南。

关于分析的指导性假设是,使用分析的机构能够提供其决定的可审查记录。《数据保护指令》要求信息处理者向任何个人提供作出某个决定的理由,比如拒绝贷款申请的决定。
这个原则立意很好,但难以落实。主要有以下几个问题:

 首先,个人必须清楚分析被用来达成了某个决定,必须知道是哪家公司做出了这个决定,必须明白自己有权挑战该决定,必须清楚提出挑战的途径和程序,必须感到这么做是安全的。

 在很多情况下,这些条件并不是全都具备。例如,如果广告算法偏向男性,没有向某位女性展示她本来有资格应聘的招聘广告,她永远都不会知道自己成为了这种歧视的受害者。她也很难知道谁应该为这个决定负责。如果使用该算法的那家公司控制着你的生活,比如你的雇主或者你投保的保险公司,那么你很可能宁可息事宁人,不要求进行调查。

 分析必须透明。有时候这很容易做到。例如,Wolfram Alpha将公布它用来返回搜索结果的规则。有些分析就确实有规则可依,且已经公开了自己的规则。

 但很多人工智能程序,比如采用遗传算法或深度学习的程序,却并不透明(除非被设计成透明)。它们自行进化和改良,不需要人类干预。它们非常强大,也可以做到非常准确,但到它们得出结论的时候,整个过程已经变得极为复杂,大多数人都无法理解。
允许个人提出挑战的弥补方案不具有普遍意义:即使个人敢于要求推翻已经作出的决定,这也无助于改善系统的整体公平性。企业可能会为了某个人而重新审视其决定,但不会停止这种可能伤害成千上万人的做法。实际上,欧盟的《数据保护指令》并非在反映全社会的共同需求,而是把人们当成孤立的个体对待,而任何个体都不会有足够大的个人影响力来改变不公平的系统。

 有鉴于此,似乎应该要求进行分析的企业提供多种形式的透明性。
首先,它们需要确定并披露出自己一直被用于作出影响个人的决定。
企业应该和利益相关者(尤其是受系统影响的人群)进行开诚布公的讨论,谈谈什么是公平,以及系统是否准确反映了人们生活的真实情况。
对人们生活产生重大影响的所有预测分析系统还应该接受查验或追踪。不接受查验的系统有如不打印选票的电子投票机:它们根本不适合这项工作。

 著名计算机科学家辛西娅·德沃克(CynthiaDwork)发明了一种验证公平性的有趣方法,她称之为“觉知性公平”。借助差分隐私实验,她的团队试图利用密码学来验证算法的公平性。不幸的是,这项技术恐怕过于复杂,无法整合进“正在吞噬整个世界”的分析系统。

 计算机科学家们在一篇论文中谈到了另一种方法:把公平性测试整合到系统开发过程中。这篇论文提出了一个有趣的前提:我们不能对种族、性别等差异视而不见。我们必须清楚地意识到这些差异,必须明确地测试它们。这种“平权法案”方法完全不同于某些统计学家和数据科学家的观点:他们相信,他们能够远离社会影响,他们的技术可以保证客观性。

案例研究:刑事量刑

 在本文最后,将会探讨最广为人知的一项分析偏见研究,并从中得出一些新的结论。我说的是一篇关于为已定罪罪犯量刑的著名文章。今年5月,这篇文章发表于民间新闻网站ProPublica,在让公众了解预测分析的风险方面发挥了重要作用。朱莉娅·安格温(Julia Angwin)及其合著者将关注点放在了一款名叫COMPAS的软件上,很多地方的司法机关都用这款软件来决定是判罪犯缓刑还是把他们关进监狱。作者们说,这样的决定带有种族偏见,因为黑人罪犯比白人罪犯更容易被COMPAS划入高风险类别(意味着他们更可能在缓刑期内再次犯罪),这是不公平的。
作者们本来可以说COMPAS常常出错,但很多时候都是对的。他们本来可以建议,鉴于错误率较高,法官只应该把COMPAS当成众多的判决依据之一。但他们却更进一步,将自己推入了一场激烈的争论之中。

 所有人似乎分成了两派:

1.      COMPAS的算法对于白人和黑人将犯下更多罪行(再次犯罪)的预测同样准确。

2.      COMPAS的算法对于黑人将再次犯罪的预测失误率远高于白人,这是错误的,也伤害了黑人群体,指控他们将会再次犯罪,而事实上他们并不会这样。

 那么,什么是公平?

ProPublica的分析引发了争议。几位评论员说,ProPublica没有考虑到另一个重要差异:黑人罪犯被判二次犯罪的可能性确实远高于白人罪犯。The American Conservative网站发文解释了ProPublica为什么会得出这样的结论。《华盛顿邮报》的一篇文章也提出了同样的观点。基本上来说,这些文章都声称,黑人罪犯比白人罪犯更容易被划入高风险类别,这是由输入数据决定的,不可能受到人为操纵。

 COMPAS软件的开发机构Northpointe在反驳ProPublica的那篇文章时,也提出了这一看法。对于ProPublica指控COMPAS将黑人错误地划入高风险类别的可能性远高于白人的核心论断,Northpointe反驳说:“这种模式没有显示出存在偏见的迹象,而是使用公正的评分规则得出的自然结果。那些群体碰巧呈现出不同的评分分布。”他们引用了一项非相关研究的结果,说他们没法做手脚调高黑人的高风险评分。
Northpointe还说,在那项研究中,白人的年纪往往比黑人更大,这降低了他们再次犯罪的可能性。ProPublica的研究确实发现,年龄与犯罪紧密相关。他们也以其他理由批评ProPublica的研究,但在我看来,黑人更可能被再次逮捕的倾向是所有这些评论的核心议题。

 我们能从这场争论中得出很多有趣的通用结论。首先,数据科学本身就充满争议。尽管该领域以客观性为目标,但统计学家们并不总是意见相合。其次,在评判分析的影响时,评判者肯定会受到自身价值观的影响。ProPublica认为,COMPAS所遵循的道德标准已经偏离了Northpointe采用的那些标准。

但我们应该从中吸取的主要教训,则是提出以下问题:黑人的再犯率为什么更高?如果这是ProPublica所说的偏见的来源,为什么会发生这种情况?

在这里,我们必须借助社会科学研究,这些研究的探讨范畴往往要比这篇文章广泛得多。基本上来说,研究人员已经证明,在避免犯罪方面,黑人往往缺乏白人所能获得的种种支持。米歇尔·亚历山大(Michelle Alexander)的著作《新种族隔离主义》(The New Jim Crow)对此作了很好的论述。与白人相比,黑人不太可能拥有可以帮助他们找到工作的联系人,不太可能被聘用(尤其是在有犯罪前科的情况下),不太可能得到住房和其他赖以为生的重要资源,通常也不太可能拥有使他们免于再次犯罪的社会结构。

因此,预测分析结果的差异帮助我们看到了现实生活中的差异。

 斯威尼的研究也得出了类似结论。她发问道:谷歌不恰当地展示黑人常用名的“逮捕记录”广告,谁应该为此负责?谷歌和提供那些广告的公司都否认存在任何蓄意偏见。我倾向于相信他们,因为他们如果刻意地把种族歧视思想融入到广告展示中,将会面临很大的风险。那么,还有什么其他的答案呢?终端用户行为:普通网络用户搜索黑人逮捕记录的频率肯定超过白人。这种社会偏见被算法捕捉并融入到了自己的分析过程中。

 《麻省理工科技评论》的一篇文章表达了同样的看法,认为普通人的偏见会通过评级系统传递到临场经济(contingent economy)中。于是,我们得到的就是卡通人物勃哥(Pogo)的那句经典结论:我们已经遇到了敌人,那就是我们自己。或者,用迈克·鲁克德斯(MikeLoukides)的话来说:“我们的AI就是我们自己。”

可能的弥补措施

数据科学家本能地通过两个办法来验证准确性:检查输入数据和检查分析模型。为我们提供数据的真实环境就存在不公平的歧视时,需要我们积极进行详细检查,不遗余力地消除数据中的偏见。就像前文提到的COMPAS,显然依据的就是带有种族偏见的数据。我们应该有意识地采取措施恢复分析系统的公平性。

 程序员和数据科学家可以成为对抗偏见的先锋。但是算法领域的用户和监管该领域的政策制定者也可以发挥带头作用,主动要求对算法进行审查。理想情况下,分析将会公开给公众接受审查,但由于上文提到的那些原因(保护商业机密、避免系统被玩弄于股掌之上等等),这通常无法实现。不过,可以按照严格的许可规定,授权一群专家以找出潜在偏见为目的,对数据和算法进行评估。

承认偏见是坏事(这个原则现在常常受到质疑)后,公众需要采取的第一步就是明白算法可能引入和强化偏见。然后,我们必须认识到,偏见不是来自于程序员(哪怕他可能是白人、男性和高收入者)或程序,而是来自于几千年来造成社会不公的那些因素。算法不是客观的,但它们客观地体现了人类自身的罪孽。





为什么我们用的是交流电不是直流电?
要写标书了,大家有什么好的建议?
电动调节阀总出故障,怎么处理? 查看全部
马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。

我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

原文翻译:
新闻记者和政策制定者正渐渐意识到一个问题,某些最有前途、最强大的计算工具存在巨大的缺陷。随着预测分析进入越来越多的领域——推送广告;开拓新市场;作出重要决定,比如让谁得到贷款,让谁得到新工作,甚至是把谁送进监狱和暗杀谁这样的伦理道德决定——某些特定群体遭受歧视和偏见的迹象日益增多。

 文着重探讨分析中这种普遍趋势的技术和社会层面。我研究了分析在执行过程中为什么难以做到公平公正,以及这说明分析处于怎样的社会背景。关于这个话题,美国计算机协会(ACM)举办的一场研讨会和我围绕这场研讨会所做的研究为我提供了一些有用见解。
分析无处不在
预测分析似乎证实了马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。这些压力推高了数据科学家(数据科学不只是统计学,但拥有深厚的统计学背景是必要条件)的薪水,并且使得市场调研公司Gartner作出了数据科学家将大量短缺的预测。

分析(更准确地说是模拟)甚至在近期热门电影《萨利机长》(Sully)中扮演了重要角色,但基本上是反派。该片说明了人类社会日益依赖算法的一个最令人不安的方面:身居高位、权力巨大的政策制定者有时会让算法替他们作出判断,而他们根本不明白算法的运行机制和可能造成的后果。在《萨利机长》中,调查员把一条事关重大的错误信息输入系统,还用不切实际的假设情境来训练系统。当这些计算的受害者对模拟背后的假设情境提出质疑时,调查员自鸣得意地说:“我们运行了20次模拟!”他们没有意识到,这20次模拟都是建立在同样的错误假设之上,将会得出同样的错误结论。当受害者要求查看详细的输入数据时,他们打官腔拒绝了这一要求。虽然《萨利机长》可能精心安排了事件背后的一些事实,但对于分析在现代生活中的使用,该片为我们提供了很多经验教训。

需要指出的是,分析可以帮助作出正确决策。在我参加ACM的那场研讨会期间,我的信用卡提供商进行的分析发现,有人窃取了我的信用卡信息,试图盗用我的卡。他们的专家分析系统立刻冻结了这张卡,没有造成金钱损失。虽然在旅行途中发现我的卡被冻结,给我带来了不便,但我还是感激那些保护了我和银行的分析工具。

使用分析的大多数公司希望通过减少主观性来减少偏见。偏见一直都存在,不需要计算机。越来越多的研究表明,工作面试无法有效地判定谁能做好这份工作,原因主要在于我们面对面评估应聘者时作出的仓促决定,这很容易受到内隐偏见的影响。对大脑运作的研究显示,白人和亚洲人在潜意识里对黑人抱有根深蒂固的不信任感,这使得改善警察执法实践的努力面临着更大的困难(举个例子)。偏见很早就开始影响人们的生活。黑人学生和白人学生在学校里做出同样的违规行为,黑人学生更容易受到处罚。我们从小就受到由来已久的偏见影响。

 不幸的是,预测分析常常重现社会的偏见,因为它们的创造者是带有偏见的人,或者因为它们使用带有偏见的历史数据进行训练。

一个广为人知、无可争辩的例子来自于拉坦娅·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隐私研究员,她最为人所知的,是证明了公共记录可以被用来揭露美国马萨诸塞州州长威廉·维尔德(William Weld)的医疗信息。这促使健康隐私法律作出了重大修改。她在2013年进行的研究显示,在谷歌(Google)上搜索美国黑人的常用名,往往会出现给出此人逮捕记录的广告。搜索白人的常用名,则往往不会出现这样的广告。但是人事经理、房东等人在搜索潜在候选人时,如果出现这样的广告,会很容易被吓阻,尤其是当一群求职者中只有黑人应聘者的名字导致这种广告出现的时候。

很多政策行动组织都签署了一份《大数据时代民权原则》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但没有说具体如何做到这一点。在美国,恐怕会很难让政策制定者关注到这个问题,因为新上台的当权者们自己就公开宣扬偏见和歧视,但有道德心的程序员及其雇主将会继续寻找解决办法。

让我们看看这对弄清分析中的偏见意味着什么。

成为有辨别力的思考者

我记得一位小学老师对她的学生们说,她希望我们成为“有辨别力的思考者”。区别对待有时是好事。如果某人曾经借钱挥霍,购买自己买不起的昂贵物品,那么不给他贷款对银行和公众都有好处。问题是我们用什么标准来加以区别。

 ACM研讨会的与会者们对道德标准进行了一番讨论。分析专业人士是否应该建立某种具体的道德标准来控制分析的使用?或者,专家是否应该以公开透明为目标,让公众了解决策的制定过程,而不建立具体的道德标准?

 我认为,最好的做法是坚持被广泛接受的社会标准。例如,在上世纪60年代,美国以宪法第一修正案为依据,禁止民族、种族和宗教歧视。后来,性别和残疾被加入保护行列,然后是性取向(在22个州的管辖范围内),近期则是性别认同(也就是跨性别者和非二元性别者)。1948年的联合国《世界人权宣言》在第二条中呼吁人人平等,“不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属之国家或领土的政治、法律管辖或者国际地位之不同而有所区别,无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下”。这里的“其他身份”表述模糊,但其余部分相当明确具体。

简而言之,就是由参与公共讨论的政治实体和政策制定者来决定什么可以区别对待,什么不可以。在某些情况下,计算机算法可能会使用种族和性别这样的标准来作出雇佣等决定,哪怕使用这些标准并不合法。

 计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

 1976年出版的一本经典论著《计算机能力与人类理性:从判断到计算》(Computer Power and Human Reason: From Judgment To Calculation)也传达了同样的讯息。该书作者约瑟夫·魏泽鲍姆(Joseph Weizenbaum)提出了一条关于人工智能的重要原则。他说,问题不在于计算机能不能够作出事关人类重要活动的决定,而在于它们应不应该作出这样的决定。

 因此,我认为,很多法律和政策声明已经明确了我们应该警惕偏见的领域。本文将会逐渐说明,这些政策考量会推动技术方面的决定。

数据科学家凯茜·奥尼尔(Cathy O'Neil)在深受好评的《数学杀伤性武器》(Weapons of Math Destruction)一书中,提出了几个令人信服的观点,包括:

 由于企业是从他人那里购买数据或分析的,数据的收集和处理常常是以层级为单位发生的。算法最初的不透明性会随着层级的累加而增大,每个层级引入的错误因素也是如此。

 将我们与趋势进行比较的算法,最终会用他人的行为来评判我们,而不是用我们自己的行为来评判我们。我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

 一旦某人被划入表现糟糕者的行列,被认为是不可靠的员工、潜在的罪犯或者信用不好的人,那么算法就会进行区别对待,使他失去机会,越来越把他推向贫穷和缺乏机会的境地。

奥尼尔的弥补方案不只是检测偏见,还包括通过一个广泛的社会项目来评估社会的目标,把对抗经济压力的公平性考虑在内,利用算法帮助弱势者,而不是惩罚他们。

 透明性的阴暗面

 透明性可以说是我们这个时代的战斗口号:让所有人看到你的决策过程!全球已有70个国家加入了开放政府伙伴关系联盟(Open Government Partnership),承诺让公民参与财政预算和法律法规的制定。其中的大多数国家一如往常,继续面对着战争、腐败和其他问题。

 但先不要对透明性过于悲观。从很多方面来说,透明性正在提升,这得益于更高的教育水平和新的传播媒体。开源运动大大加强了程序的透明性。开源软件或其他措施能否使预测分析更加公平呢?

 利用分析对人进行分类的企业担心,被分析的对象如果了解输入数据的标准,就可以把分析系统玩弄于股掌之上。很多标准涉及到难以改变的重要生活特征,比如收入。但也有很多标准似乎只是更重要特征的简单代表,这就有可能让精明的分析对象弄虚作假。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

 因此,那些密切关注分析使用状况的人承认,透明性并不总是好事。一些专家反对在分析中使用简单的二元标准,说这种标准过于粗糙,无助于作出正确决定。我认为,无数家机构的经历已经证明,这样的粗糙标准很容易被看穿。分析对象的状况在不断变化,所以标准必须与时俱进。

 对于加强透明性的努力来说,还有另一个障碍需要克服:一些公司的分析会变来变去,谷歌的排名算法就是如此。外人不可能透彻了解每一项变动。另外,机器学习技术往往会生成令人费解的决策树,就连编写这些程序的人自己都搞不明白。

 另一方面,固定不变的算法可能会逐渐偏离正确的预测,因为作为输入数据一部分的生活状况在不断变化。这解释了道琼斯工业平均指数(DJIA)为什么时不时地改变包含的成分股公司:在19世纪80年代构成美国经济主要部分的那些公司要么已经消亡,要么变得无足轻重,而现代经济的主要构成部分在那时甚至根本无从想象(最初的12间DJIA成分股公司,现在只剩下了通用电气这一间)。出于类似的原因,分析必须时常用新的、准确的输入数据进行重新计算。当分析产品被出售时,我们又会遇到另一种风险:它们可能会逐渐偏离现实,沉沦于过去,从而对依靠它们的公司和被它们错误分类的人造成负面影响。

 力量的不平衡也扮演了非常重要的角色。本文稍后会以一篇论述刑事量刑的著名文章为背景,向大家说明,从外部对算法发起挑战是极为困难的,因为部署算法的机构比作为分析对象的个人要远为强大得多。亚历克斯·罗森布拉特(Alex Rosenblat)、塔玛拉·克尼斯(Tamara Kneese)和丹娜·博伊德(DanahBoyd)撰写的一篇文章指出,要赢得歧视诉讼是很难的。也许,实现公平公正的最有效方法是让企业把他们的分析交给某个评审委员会审查,类似于评审学术研究的机构审查委员会(IRB),由很多利益相关者组成,包括可能受到分析不利影响的人。这样的委员会是否有能力评估深奥的算法还是个未知数,但至少他们能告诉程序员,某些输入数据是否存在固有偏见。

 弥补措施

 在学术界以外,批评预测分析存在偏见的人一直致力于揭露那些偏见(请注意,他们也在使用同样的机器学习工具!)。他们常常暗示,应该停止使用分析工具来作出对人类产生深远影响的决定。分析的预期影响是一个标准,企业可以据此判断是否信赖分析。企业利用A/B测试来确定网站访客点击绿色图标的次数是否超过蓝色图标,看上去没有什么不好。另一方面,Facebook通过信息推送来影响用户情绪的做法被广泛视作为不道德行为。

 所以说,社会尚未弄清楚分析的适当角色,或者在分辨不良后果方面还不够熟练——技术专家Meng Weng Wong称此为“误算法”(malgorithm)。而分析实在太过强大,太有用处,我们也不能乐于拒绝。

 一种弥补方案是让用户有机会挑战分析结果,就像几十年前美国联邦贸易委员会(Federal Trade commission)颁布的、被很多公司以各种形式采纳的“公平信息实践原则”(FIPPS)那样。企业可以通过任何方式作出决定,但过程必须透明,并赋予个人挑战该决定的权利。欧盟已经将这一原则写入了2016年4月的《数据保护指令》,该指令对上世纪80年代的隐私法规进行了补充更新。此外,普林斯顿大学的一个团队也为那些希望打造公平算法的程序员编制了一份指南。

关于分析的指导性假设是,使用分析的机构能够提供其决定的可审查记录。《数据保护指令》要求信息处理者向任何个人提供作出某个决定的理由,比如拒绝贷款申请的决定。
这个原则立意很好,但难以落实。主要有以下几个问题:

 首先,个人必须清楚分析被用来达成了某个决定,必须知道是哪家公司做出了这个决定,必须明白自己有权挑战该决定,必须清楚提出挑战的途径和程序,必须感到这么做是安全的。

 在很多情况下,这些条件并不是全都具备。例如,如果广告算法偏向男性,没有向某位女性展示她本来有资格应聘的招聘广告,她永远都不会知道自己成为了这种歧视的受害者。她也很难知道谁应该为这个决定负责。如果使用该算法的那家公司控制着你的生活,比如你的雇主或者你投保的保险公司,那么你很可能宁可息事宁人,不要求进行调查。

 分析必须透明。有时候这很容易做到。例如,Wolfram Alpha将公布它用来返回搜索结果的规则。有些分析就确实有规则可依,且已经公开了自己的规则。

 但很多人工智能程序,比如采用遗传算法或深度学习的程序,却并不透明(除非被设计成透明)。它们自行进化和改良,不需要人类干预。它们非常强大,也可以做到非常准确,但到它们得出结论的时候,整个过程已经变得极为复杂,大多数人都无法理解。
允许个人提出挑战的弥补方案不具有普遍意义:即使个人敢于要求推翻已经作出的决定,这也无助于改善系统的整体公平性。企业可能会为了某个人而重新审视其决定,但不会停止这种可能伤害成千上万人的做法。实际上,欧盟的《数据保护指令》并非在反映全社会的共同需求,而是把人们当成孤立的个体对待,而任何个体都不会有足够大的个人影响力来改变不公平的系统。

 有鉴于此,似乎应该要求进行分析的企业提供多种形式的透明性。
首先,它们需要确定并披露出自己一直被用于作出影响个人的决定。
企业应该和利益相关者(尤其是受系统影响的人群)进行开诚布公的讨论,谈谈什么是公平,以及系统是否准确反映了人们生活的真实情况。
对人们生活产生重大影响的所有预测分析系统还应该接受查验或追踪。不接受查验的系统有如不打印选票的电子投票机:它们根本不适合这项工作。

 著名计算机科学家辛西娅·德沃克(CynthiaDwork)发明了一种验证公平性的有趣方法,她称之为“觉知性公平”。借助差分隐私实验,她的团队试图利用密码学来验证算法的公平性。不幸的是,这项技术恐怕过于复杂,无法整合进“正在吞噬整个世界”的分析系统。

 计算机科学家们在一篇论文中谈到了另一种方法:把公平性测试整合到系统开发过程中。这篇论文提出了一个有趣的前提:我们不能对种族、性别等差异视而不见。我们必须清楚地意识到这些差异,必须明确地测试它们。这种“平权法案”方法完全不同于某些统计学家和数据科学家的观点:他们相信,他们能够远离社会影响,他们的技术可以保证客观性。

案例研究:刑事量刑

 在本文最后,将会探讨最广为人知的一项分析偏见研究,并从中得出一些新的结论。我说的是一篇关于为已定罪罪犯量刑的著名文章。今年5月,这篇文章发表于民间新闻网站ProPublica,在让公众了解预测分析的风险方面发挥了重要作用。朱莉娅·安格温(Julia Angwin)及其合著者将关注点放在了一款名叫COMPAS的软件上,很多地方的司法机关都用这款软件来决定是判罪犯缓刑还是把他们关进监狱。作者们说,这样的决定带有种族偏见,因为黑人罪犯比白人罪犯更容易被COMPAS划入高风险类别(意味着他们更可能在缓刑期内再次犯罪),这是不公平的。
作者们本来可以说COMPAS常常出错,但很多时候都是对的。他们本来可以建议,鉴于错误率较高,法官只应该把COMPAS当成众多的判决依据之一。但他们却更进一步,将自己推入了一场激烈的争论之中。

 所有人似乎分成了两派:

1.      COMPAS的算法对于白人和黑人将犯下更多罪行(再次犯罪)的预测同样准确。

2.      COMPAS的算法对于黑人将再次犯罪的预测失误率远高于白人,这是错误的,也伤害了黑人群体,指控他们将会再次犯罪,而事实上他们并不会这样。

 那么,什么是公平?

ProPublica的分析引发了争议。几位评论员说,ProPublica没有考虑到另一个重要差异:黑人罪犯被判二次犯罪的可能性确实远高于白人罪犯。The American Conservative网站发文解释了ProPublica为什么会得出这样的结论。《华盛顿邮报》的一篇文章也提出了同样的观点。基本上来说,这些文章都声称,黑人罪犯比白人罪犯更容易被划入高风险类别,这是由输入数据决定的,不可能受到人为操纵。

 COMPAS软件的开发机构Northpointe在反驳ProPublica的那篇文章时,也提出了这一看法。对于ProPublica指控COMPAS将黑人错误地划入高风险类别的可能性远高于白人的核心论断,Northpointe反驳说:“这种模式没有显示出存在偏见的迹象,而是使用公正的评分规则得出的自然结果。那些群体碰巧呈现出不同的评分分布。”他们引用了一项非相关研究的结果,说他们没法做手脚调高黑人的高风险评分。
Northpointe还说,在那项研究中,白人的年纪往往比黑人更大,这降低了他们再次犯罪的可能性。ProPublica的研究确实发现,年龄与犯罪紧密相关。他们也以其他理由批评ProPublica的研究,但在我看来,黑人更可能被再次逮捕的倾向是所有这些评论的核心议题。

 我们能从这场争论中得出很多有趣的通用结论。首先,数据科学本身就充满争议。尽管该领域以客观性为目标,但统计学家们并不总是意见相合。其次,在评判分析的影响时,评判者肯定会受到自身价值观的影响。ProPublica认为,COMPAS所遵循的道德标准已经偏离了Northpointe采用的那些标准。

但我们应该从中吸取的主要教训,则是提出以下问题:黑人的再犯率为什么更高?如果这是ProPublica所说的偏见的来源,为什么会发生这种情况?

在这里,我们必须借助社会科学研究,这些研究的探讨范畴往往要比这篇文章广泛得多。基本上来说,研究人员已经证明,在避免犯罪方面,黑人往往缺乏白人所能获得的种种支持。米歇尔·亚历山大(Michelle Alexander)的著作《新种族隔离主义》(The New Jim Crow)对此作了很好的论述。与白人相比,黑人不太可能拥有可以帮助他们找到工作的联系人,不太可能被聘用(尤其是在有犯罪前科的情况下),不太可能得到住房和其他赖以为生的重要资源,通常也不太可能拥有使他们免于再次犯罪的社会结构。

因此,预测分析结果的差异帮助我们看到了现实生活中的差异。

 斯威尼的研究也得出了类似结论。她发问道:谷歌不恰当地展示黑人常用名的“逮捕记录”广告,谁应该为此负责?谷歌和提供那些广告的公司都否认存在任何蓄意偏见。我倾向于相信他们,因为他们如果刻意地把种族歧视思想融入到广告展示中,将会面临很大的风险。那么,还有什么其他的答案呢?终端用户行为:普通网络用户搜索黑人逮捕记录的频率肯定超过白人。这种社会偏见被算法捕捉并融入到了自己的分析过程中。

 《麻省理工科技评论》的一篇文章表达了同样的看法,认为普通人的偏见会通过评级系统传递到临场经济(contingent economy)中。于是,我们得到的就是卡通人物勃哥(Pogo)的那句经典结论:我们已经遇到了敌人,那就是我们自己。或者,用迈克·鲁克德斯(MikeLoukides)的话来说:“我们的AI就是我们自己。”

可能的弥补措施

数据科学家本能地通过两个办法来验证准确性:检查输入数据和检查分析模型。为我们提供数据的真实环境就存在不公平的歧视时,需要我们积极进行详细检查,不遗余力地消除数据中的偏见。就像前文提到的COMPAS,显然依据的就是带有种族偏见的数据。我们应该有意识地采取措施恢复分析系统的公平性。

 程序员和数据科学家可以成为对抗偏见的先锋。但是算法领域的用户和监管该领域的政策制定者也可以发挥带头作用,主动要求对算法进行审查。理想情况下,分析将会公开给公众接受审查,但由于上文提到的那些原因(保护商业机密、避免系统被玩弄于股掌之上等等),这通常无法实现。不过,可以按照严格的许可规定,授权一群专家以找出潜在偏见为目的,对数据和算法进行评估。

承认偏见是坏事(这个原则现在常常受到质疑)后,公众需要采取的第一步就是明白算法可能引入和强化偏见。然后,我们必须认识到,偏见不是来自于程序员(哪怕他可能是白人、男性和高收入者)或程序,而是来自于几千年来造成社会不公的那些因素。算法不是客观的,但它们客观地体现了人类自身的罪孽。

QQ图片20170105094807.jpg

为什么我们用的是交流电不是直流电?
要写标书了,大家有什么好的建议?
电动调节阀总出故障,怎么处理?
365 浏览

数据说希拉里会赢,它错在哪里?

机械自动化类 料盘挡板 2016-11-21 13:51 发表了文章 来自相关话题

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。


唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。


“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。


几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。


大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。


从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。


但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。


比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。


今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。


还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。


这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。


“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。


除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。


对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。


该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。


数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。


数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。


Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”


那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。


538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。


除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。


但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。


“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”


但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。


比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。


分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。


“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”
 
 
 
 
 
转自:大数据文摘 原作者|Steve Lohr& Natasha Singer 翻译|汤人懿 校对|蒋晔
智造家提供 查看全部

3.9_.JPG

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。


唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。


“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。


几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。


大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。


从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。


但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。


比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。


今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。


还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。


这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。


“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。


除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。


对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。


该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。


数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。


数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。


Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”


那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。


538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。


除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。


但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。


“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”


但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。


比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。


分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。


“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”
 
 
 
 
 
转自:大数据文摘 原作者|Steve Lohr& Natasha Singer 翻译|汤人懿 校对|蒋晔
智造家提供
526 浏览

可视化1300个故事 揭秘6种情节套路

机械自动化类 密泰传动系统 2016-10-31 16:29 发表了文章 来自相关话题

伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。



◆ ◆ ◆

导言


人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。

而现在,随着计算能力、语言处理和文本数字化三种技术方面的改善,以文字“大数据”来研究某种文化成为了可能。


正如美国作家库尔特·冯内古特(Kurt Vonnegut)曾经说过的那样:“这些故事都有着美丽而方便计算的格式,没有理由说我们不能把它们套进计算机的算法里去。”





图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线

(注:整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析:Hedonometer / Andy Reagan / Kirsch)


伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。


这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据,并由此解开了讲故事之所以能够吸引人们的本质特征。




◆ ◆ ◆

实验展示

 
科学家收集了1327本书作为样本,这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事(P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的)。为了生成样本书的情感线,研究者将文本分为了一个个10000的小块,并分析每个小块里的所表达的感情。(如图2所示)





图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。

 

六种基本故事线形态分别为:

1.“白手起家”(故事线主要特征形态为:上升)

2.“悲剧”或“凤凰变麻雀”(故事线主要特征形态为:下降)

3.“陷入困境的人”(故事线主要特征形态为:先降后升)

4.“伊卡洛斯” (故事线主要特征形态为:先升后降)(P.S.希腊神话中代达罗斯的儿子。在用蜡和羽毛做的翅膀逃离克里特岛时,因飞得太高,双翼上的蜡遭太阳融化跌落水中丧生,被埋葬在一个海岛上。)

5.“灰姑娘”(故事线主要特征形态为:先升后降再升)

6.“俄狄浦斯”(故事线主要特征形态为:先降后升再降)(P.S. 俄狄浦斯是外国文学史上典型的命运悲剧人物。他在不知情的情况下,杀死了自己的父亲并娶了自己的母亲。)





图3 六种基本故事线的形态展示
(注:从左至右从上到下依次为:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析:Reagan et. al/ University of Vermont)





◆ ◆ ◆

结论

当研究团队确定了六种基本的情感故事线之后,又进一步观察了情感线与其故事下载量之间的关系,并据此探索最受欢迎的情感故事线类型。最终的研究结果显示,最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。


另外,把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上,研究结果显示,最受欢迎的故事往往是连续两次出现“陷入困境的人”的,还有“灰姑娘”紧接一个“悲剧”的故事。
 
 
 
来源:大数据文摘
 
智造家提供
  查看全部
7.1_.jpg
伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。



◆ ◆ ◆

导言


人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。

而现在,随着计算能力、语言处理和文本数字化三种技术方面的改善,以文字“大数据”来研究某种文化成为了可能。


正如美国作家库尔特·冯内古特(Kurt Vonnegut)曾经说过的那样:“这些故事都有着美丽而方便计算的格式,没有理由说我们不能把它们套进计算机的算法里去。”

7.2_.jpg

图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线

(注:整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析:Hedonometer / Andy Reagan / Kirsch)


伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。


这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据,并由此解开了讲故事之所以能够吸引人们的本质特征。




◆ ◆ ◆

实验展示

 
科学家收集了1327本书作为样本,这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事(P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的)。为了生成样本书的情感线,研究者将文本分为了一个个10000的小块,并分析每个小块里的所表达的感情。(如图2所示)

7.3_.jpg

图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。

 

六种基本故事线形态分别为:

1.“白手起家”(故事线主要特征形态为:上升)

2.“悲剧”或“凤凰变麻雀”(故事线主要特征形态为:下降)

3.“陷入困境的人”(故事线主要特征形态为:先降后升)

4.“伊卡洛斯” (故事线主要特征形态为:先升后降)(P.S.希腊神话中代达罗斯的儿子。在用蜡和羽毛做的翅膀逃离克里特岛时,因飞得太高,双翼上的蜡遭太阳融化跌落水中丧生,被埋葬在一个海岛上。)

5.“灰姑娘”(故事线主要特征形态为:先升后降再升)

6.“俄狄浦斯”(故事线主要特征形态为:先降后升再降)(P.S. 俄狄浦斯是外国文学史上典型的命运悲剧人物。他在不知情的情况下,杀死了自己的父亲并娶了自己的母亲。)

7.4_.jpg

图3 六种基本故事线的形态展示
(注:从左至右从上到下依次为:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析:Reagan et. al/ University of Vermont)





◆ ◆ ◆

结论

当研究团队确定了六种基本的情感故事线之后,又进一步观察了情感线与其故事下载量之间的关系,并据此探索最受欢迎的情感故事线类型。最终的研究结果显示,最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。


另外,把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上,研究结果显示,最受欢迎的故事往往是连续两次出现“陷入困境的人”的,还有“灰姑娘”紧接一个“悲剧”的故事。
 
 
 
来源:大数据文摘
 
智造家提供
 
1 回答

怎么精益数据分析?有哪些关键因素?

机械自动化类 小子#122 2016-10-31 16:14 回复了问题 • 2 人关注 来自相关话题

4 回答

为什么许多大公司开始重视数据分析?

IT软件类 另一个自己 2016-10-28 10:08 回复了问题 • 6 人关注 来自相关话题

浏览

传用轴 发表了文章 来自相关话题

浏览

传用轴 发表了文章 来自相关话题

1 回答

怎么精益数据分析?有哪些关键因素?

机械自动化类 小子#122 2016-10-31 16:14 回复了问题 • 2 人关注 来自相关话题

4 回答

为什么许多大公司开始重视数据分析?

IT软件类 另一个自己 2016-10-28 10:08 回复了问题 • 6 人关注 来自相关话题

3 回答

我想成为数据分析师,需要哪些准备?

机械自动化类 绿色行廊 2016-09-29 09:49 回复了问题 • 4 人关注 来自相关话题

348 浏览

谈颠覆还太早?加快区块链应用落地或能打破僵局

工业大数据 夜入西风 2017-04-17 11:40 发表了文章 来自相关话题

区块链火了!在人们对于区块链概念还不甚清楚的情况下,各大金融机构以及科技巨头就抢先杀入这一市场,区块链试点应用也正在落地。
虽然区块链技术源于比特币,但是其正在应用到金融、司法、物流等更多的领域中,而有关区块链究竟会给这个社会带来什么、其是否会颠覆金融行业的讨论也正在展开……
区块链将颠覆传统金融行业,这是最近一段时间内我们时常听到的一个观点。
当前,作为比特币底层技术的区块链火了,不是一般的火,全球诸多金融巨头、IT巨头以及互联网巨头都在布局这一市场,有关区块链的收购和融资事件日益增多。
然而,区块链真的就像我们想象中那么“牛”吗?区块链将会颠覆金融以及其他传统行业吗?相信很多人的心中都有这样的疑问。在这个不谈区块链就落伍了的时代,我们缺乏的不是热情而是冷静。
区块链还不成熟,如果将技术成长的周期比作人的成长,那么今天的区块链就好似襁褓中的婴儿。比特币诞生于2009年,作为一种新兴的数字货币,比特币已经经历了数次“死亡”和“重生”,而就是在比特币的震荡发展中,区块链技术却焕发出无限活力,逐渐向其他行业渗透。
虽然当前业界对于区块链的定义仍然存在争论,但是区块链去中心化、不可篡改的特性却得到了基本的认同。也正是基于区块链的这些特性,很多观点认为区块链将因此具备颠覆传统的力量。
区块链协会R3执行董事查理·库伯日前在接受国内媒体采访时表示,在全球经济的各个领域都被新技术“颠覆”的时代,区块链被认为“极有可能”永久改变金融市场,而这些改变正在全球顶级金融机构、监管部门中如火如荼地展开。
信息安全专家、伦敦大学学院密码学家古拉·库尔图瓦则认为,本世纪最重要的科技并非智能手机、社交网站、虚拟现实或无人驾驶汽车,而是区块链。
从区块链“去中心化”和“不可篡改”的特性上看,其确实给传统应用和行业带来了颠覆的可能。在传统的交易中,往往需要一个中心化的机构来解决根本的信任问题,并进行相应的结算。
而作为分布式账本的区块链,意味着将产生一个人人可查看的、不可篡改的公共账本,这种无须信任单个节点且能创建共识网络的方式,被认为有望应用到包括金融、交通、收藏、征信等各个领域。
不过需要看到的是,尽管目前有关区块链的消息不绝于耳,各大金融机构也在积极布局,但是今天的区块链尚处“起步期”,全球落地的区块链应用还少之又少,而具有一定规模的领域更是难寻。
用中国互联网金融协会区块链工作组组长李礼辉的话说,区块链作为一种技术,仍然是处于初级研究阶段,它仍然有非常多的局限性。而区块链金融也处在初级发展阶段,重要的底层技术没有完全突破。
如何加快推进区块链落地?这是摆在整个业界面前的命题,也是一道难题。从技术的发展规律上看,任何一个颠覆性技术都需要从热热闹闹的概念期,走向充满挑战的落地期,随之而来还有整个市场格局的多轮洗牌。
技术的发展高度依赖人才,对于我国的区块链产业而言,人才匮乏也是一个不容回避的问题。
去年年底有一则招聘信息引发了关注,某公司年薪3000万招聘CEO,条件就一条:世界级互联网公司的副总裁级、区块链专家。相比较美国,我国的区块链人才明显缺失,国内的区块链创业公司难以找到相应的研发人员,而不得不从国外引进,这无疑将对我国区块链产业的发展产生影响。
挑战与机遇并存,问题往往要在发展中解决。因而,虽然今天的区块链仍然不够完善、强大, 但是随着越来越多力量进入这一领域,我们有理由相信未来的区块链市场将会给我们带来更多的惊喜。 查看全部
区块链火了!在人们对于区块链概念还不甚清楚的情况下,各大金融机构以及科技巨头就抢先杀入这一市场,区块链试点应用也正在落地。
虽然区块链技术源于比特币,但是其正在应用到金融、司法、物流等更多的领域中,而有关区块链究竟会给这个社会带来什么、其是否会颠覆金融行业的讨论也正在展开……
区块链将颠覆传统金融行业,这是最近一段时间内我们时常听到的一个观点。
当前,作为比特币底层技术的区块链火了,不是一般的火,全球诸多金融巨头、IT巨头以及互联网巨头都在布局这一市场,有关区块链的收购和融资事件日益增多。
然而,区块链真的就像我们想象中那么“牛”吗?区块链将会颠覆金融以及其他传统行业吗?相信很多人的心中都有这样的疑问。在这个不谈区块链就落伍了的时代,我们缺乏的不是热情而是冷静。
区块链还不成熟,如果将技术成长的周期比作人的成长,那么今天的区块链就好似襁褓中的婴儿。比特币诞生于2009年,作为一种新兴的数字货币,比特币已经经历了数次“死亡”和“重生”,而就是在比特币的震荡发展中,区块链技术却焕发出无限活力,逐渐向其他行业渗透。
虽然当前业界对于区块链的定义仍然存在争论,但是区块链去中心化、不可篡改的特性却得到了基本的认同。也正是基于区块链的这些特性,很多观点认为区块链将因此具备颠覆传统的力量。
区块链协会R3执行董事查理·库伯日前在接受国内媒体采访时表示,在全球经济的各个领域都被新技术“颠覆”的时代,区块链被认为“极有可能”永久改变金融市场,而这些改变正在全球顶级金融机构、监管部门中如火如荼地展开。
信息安全专家、伦敦大学学院密码学家古拉·库尔图瓦则认为,本世纪最重要的科技并非智能手机、社交网站、虚拟现实或无人驾驶汽车,而是区块链。
从区块链“去中心化”和“不可篡改”的特性上看,其确实给传统应用和行业带来了颠覆的可能。在传统的交易中,往往需要一个中心化的机构来解决根本的信任问题,并进行相应的结算。
而作为分布式账本的区块链,意味着将产生一个人人可查看的、不可篡改的公共账本,这种无须信任单个节点且能创建共识网络的方式,被认为有望应用到包括金融、交通、收藏、征信等各个领域。
不过需要看到的是,尽管目前有关区块链的消息不绝于耳,各大金融机构也在积极布局,但是今天的区块链尚处“起步期”,全球落地的区块链应用还少之又少,而具有一定规模的领域更是难寻。
用中国互联网金融协会区块链工作组组长李礼辉的话说,区块链作为一种技术,仍然是处于初级研究阶段,它仍然有非常多的局限性。而区块链金融也处在初级发展阶段,重要的底层技术没有完全突破。
如何加快推进区块链落地?这是摆在整个业界面前的命题,也是一道难题。从技术的发展规律上看,任何一个颠覆性技术都需要从热热闹闹的概念期,走向充满挑战的落地期,随之而来还有整个市场格局的多轮洗牌。
技术的发展高度依赖人才,对于我国的区块链产业而言,人才匮乏也是一个不容回避的问题。
去年年底有一则招聘信息引发了关注,某公司年薪3000万招聘CEO,条件就一条:世界级互联网公司的副总裁级、区块链专家。相比较美国,我国的区块链人才明显缺失,国内的区块链创业公司难以找到相应的研发人员,而不得不从国外引进,这无疑将对我国区块链产业的发展产生影响。
挑战与机遇并存,问题往往要在发展中解决。因而,虽然今天的区块链仍然不够完善、强大, 但是随着越来越多力量进入这一领域,我们有理由相信未来的区块链市场将会给我们带来更多的惊喜。
436 浏览

成功的大数据项目需要的七个步骤

工业大数据 夜入西风 2017-04-17 10:31 发表了文章 来自相关话题

你一定构想过一个或几个自己觉得很靠谱的数据项目或业务,然而最后你没有去做,因为你不知道真的可以把它做成功。
现在数据哥就送您一本秘籍:《七步成就大数据项目》,助你完成大数据项目,出任CEO,赢取白富美,走上人生巅峰。
为了验证这本秘籍有多靠谱,我拿一个接地气的案例来展开。
你的理论:用twitter数据预测XX行业趋势。

终极目标:卖钱!
本秘籍假设的项目用AWS来实现,并非给AWS打广告,无他,但手熟尔。
第1步
获取数据
在开始做事之前,你需要证明你的理论可行,要做到这一点,你必须收集数据。
1.如何获取数据?
twitter的数据可以通过公共API来访问,你要做的只是用你最熟悉的编程语言,比如JAVA,写一个可以下载用户推文的小程序。
选择一个领域,比如教育,运行你写的程序,下载这个领域下的所有KOL的推文,然后你就获得了大量的推文数据。至于粉丝数量达到什么样的级别才算KOL,你自己设定。

如果你选择的不是教育领域而是大数据领域,那么恭喜你,你中奖了!因为KDNuggets有一个现成的twitter大数据领域影响力列表:
http://www.kdnuggets.com/2016/ ... .html
如果你想在云端执行此操作,您可以启动一个简单的AWS EC2 Linux instance(nano或micro),并运行您的软件。
2.如何存储数据?

存储数据的最佳方法是使用简单的“.csv”格式。每行一行,包括推文的文字和元信息。

在这个例子中,你的元信息应该包括人、时间、回复、转发和点赞。
完成后,将文件上传到AWS S3上。
3.提取多少数据?
我的建议是在合理的时间内尽可能多地获取数据,让你的程序尽情地跑吧。自己生的程序,不多跑几天多浪费,是吧?需要注意的是,twitter有严格的API规则,在一定时间内可以查询一定数量的数据,所以你还不能让你亲生程序撒开了跑,否则过不了多长时间就会请求超时。
不管怎样,你能爬到几个月的twitter历史数据应该是够够的了。要获得多少数据并没有一个标准,你高兴就好。
如果你用来跑数据的机器很渣,那还是少爬一点吧,免得尴尬。
第2步
选择合适的分析工具
爬到数据后,你需要选择合适的分析工具进行分析。你认为你需要什么分析功能?列一个清单,然后筛选能满足你需求的工具。
你要牢记一个宗旨:好吃不贵!
不好意思,好用不贵!
您可以用Orange、Rapid Miner或Knime等工具,如果你觉得数据哥给你推荐这些现成的工具是对你技术的极大侮辱,那么请自己写分析。对数据分析来讲,Python和R很不错,如果你嫌弃它们,想用Matlab,数据哥还是那句话:你高兴就好。
第3步
证明你的理论
有了数据和工具,你就可以拿起数据的武器开疆拓土了!是时候用你的数据来证明你的理论不是信口胡诌了!
首先用你的数据来证明一个你已经知道的趋势。比如去百度一个或者谷歌一个已经被报道很多次的趋势报告,然后创建分析流程。
如果分析结果符合你指定的“老”趋势,那么说明你的项目目前为止没有跑偏,那么继续查找并验证“老”趋势吧!
在进行下一步之前,你需要确定您的容错率是多少,0%的错误率绝对不现实,别跟自己过不去。
第4步
找出你的商业模式
在技术上跑通之后,你应该先退后一步,找出您的商业模式。

问问自己:

你做的是什么?

你需要什么资源?

谁是你的潜在客户?

你能为客户提供什么价值?

你如何才能将产品卖给他们?
客户付钱是为了得到什么价值?
所有这些都想清楚之后,再进行下一步。如果有某些问题还没有想清楚,但你不想浪费时间,想直接进行下一步,数据哥还是那句话:你高兴就好!
第5步
构建最小可行产品
在用技术证明你的理论可行之后,现在就可以开始构建一个最简化可行产品(Minimum Viable Product,简称MVP)的第一个版本了。构建最简化可行产品的目标是构建一个只提供核心功能的解决方案来快速检验你的产品或方向是否可行。如果你的假设得到了验证,再投入资源大规模进入市场;如果没有通过,那这就是一次快速试错,尽快调整方向。
想验证你炒的菜能不能吃,一个西红柿炒鸡蛋就够了,不需要做瑶柱双菇蒸豆腐。同理,验证你的产品可行,要摒弃那些花哨的功能,专注于您需要实现的主要功能,在以后的产品更新迭代中再扩展功能。
自动化和监测所有内容
最简化可行产品通常不仅缺少功能,还比较不智能,因此你需要尽可能多地把它自动化。让产品自动上传数据到S3、编写自动化脚本、自动开始分析数据、将下载脚本连接到RDS数据库、动态读取影响力列表。能自动化的全部自动化,自动创建API来提取和存储数据。
你需要知道你下一步应该开发什么东西,不只是在新功能方面,还涉及到平台修复和提高运行速度。你需要设置日志和监测系统,监测从twitter爬取数据的过程和往S3上传数据的过程,记录分析流程所用的时间和其他统计信息。
你也可以用像Nagios这样的工具来记录服务器统计信息,如CPU、RAM、network等。
同时你要记录用户正在做什么,每当用户使用用户界面的特定功能时,在日志中写上一行。
第7步
不断迭代
完成了前面的6步,你的MVP 1.0应该就能马不停蹄地给你赚钱了。同时你也全面地掌握了你的平台上的信息:
1.  爬取数据的速度;

2.  数据存储和分析的性能;

3.  客户在做什么。
由于你设置了全面的日志记录,产品中的所有缺点你都能直观地看出来。接下来就是进一步提升系统的时候了。
1.  根据日志来优化系统的整体性能和稳定性;

2.  扩展新功来为客户提供更多价值。
结论
如此看来,把想法变成一个成功的项目真的很简单,只需要7步:
1.  获取数据;

2.  选择合适的分析工具;

3.  用科学验证你的理论;

4.  想出你的商业模式;

5.  构建最简化可行产品;

6.  自动化和监测所有内容;

7.  不断迭代。
这7个步骤将产品的开发过程化繁为简,帮您设定优先事项,充分利用时间。

  查看全部
你一定构想过一个或几个自己觉得很靠谱的数据项目或业务,然而最后你没有去做,因为你不知道真的可以把它做成功。
现在数据哥就送您一本秘籍:《七步成就大数据项目》,助你完成大数据项目,出任CEO,赢取白富美,走上人生巅峰。
为了验证这本秘籍有多靠谱,我拿一个接地气的案例来展开。
你的理论:用twitter数据预测XX行业趋势。

终极目标:卖钱!
本秘籍假设的项目用AWS来实现,并非给AWS打广告,无他,但手熟尔。
第1步
获取数据
在开始做事之前,你需要证明你的理论可行,要做到这一点,你必须收集数据。
1.如何获取数据?
twitter的数据可以通过公共API来访问,你要做的只是用你最熟悉的编程语言,比如JAVA,写一个可以下载用户推文的小程序。
选择一个领域,比如教育,运行你写的程序,下载这个领域下的所有KOL的推文,然后你就获得了大量的推文数据。至于粉丝数量达到什么样的级别才算KOL,你自己设定。

如果你选择的不是教育领域而是大数据领域,那么恭喜你,你中奖了!因为KDNuggets有一个现成的twitter大数据领域影响力列表:
http://www.kdnuggets.com/2016/ ... .html
如果你想在云端执行此操作,您可以启动一个简单的AWS EC2 Linux instance(nano或micro),并运行您的软件。
2.如何存储数据?

存储数据的最佳方法是使用简单的“.csv”格式。每行一行,包括推文的文字和元信息。

在这个例子中,你的元信息应该包括人、时间、回复、转发和点赞。
完成后,将文件上传到AWS S3上。
3.提取多少数据?
我的建议是在合理的时间内尽可能多地获取数据,让你的程序尽情地跑吧。自己生的程序,不多跑几天多浪费,是吧?需要注意的是,twitter有严格的API规则,在一定时间内可以查询一定数量的数据,所以你还不能让你亲生程序撒开了跑,否则过不了多长时间就会请求超时。
不管怎样,你能爬到几个月的twitter历史数据应该是够够的了。要获得多少数据并没有一个标准,你高兴就好。
如果你用来跑数据的机器很渣,那还是少爬一点吧,免得尴尬。
第2步
选择合适的分析工具
爬到数据后,你需要选择合适的分析工具进行分析。你认为你需要什么分析功能?列一个清单,然后筛选能满足你需求的工具。
你要牢记一个宗旨:好吃不贵!
不好意思,好用不贵!
您可以用Orange、Rapid Miner或Knime等工具,如果你觉得数据哥给你推荐这些现成的工具是对你技术的极大侮辱,那么请自己写分析。对数据分析来讲,Python和R很不错,如果你嫌弃它们,想用Matlab,数据哥还是那句话:你高兴就好。
第3步
证明你的理论
有了数据和工具,你就可以拿起数据的武器开疆拓土了!是时候用你的数据来证明你的理论不是信口胡诌了!
首先用你的数据来证明一个你已经知道的趋势。比如去百度一个或者谷歌一个已经被报道很多次的趋势报告,然后创建分析流程。
如果分析结果符合你指定的“老”趋势,那么说明你的项目目前为止没有跑偏,那么继续查找并验证“老”趋势吧!
在进行下一步之前,你需要确定您的容错率是多少,0%的错误率绝对不现实,别跟自己过不去。
第4步
找出你的商业模式
在技术上跑通之后,你应该先退后一步,找出您的商业模式。

问问自己:

你做的是什么?

你需要什么资源?

谁是你的潜在客户?

你能为客户提供什么价值?

你如何才能将产品卖给他们?
客户付钱是为了得到什么价值?
所有这些都想清楚之后,再进行下一步。如果有某些问题还没有想清楚,但你不想浪费时间,想直接进行下一步,数据哥还是那句话:你高兴就好!
第5步
构建最小可行产品
在用技术证明你的理论可行之后,现在就可以开始构建一个最简化可行产品(Minimum Viable Product,简称MVP)的第一个版本了。构建最简化可行产品的目标是构建一个只提供核心功能的解决方案来快速检验你的产品或方向是否可行。如果你的假设得到了验证,再投入资源大规模进入市场;如果没有通过,那这就是一次快速试错,尽快调整方向。
想验证你炒的菜能不能吃,一个西红柿炒鸡蛋就够了,不需要做瑶柱双菇蒸豆腐。同理,验证你的产品可行,要摒弃那些花哨的功能,专注于您需要实现的主要功能,在以后的产品更新迭代中再扩展功能。
自动化和监测所有内容
最简化可行产品通常不仅缺少功能,还比较不智能,因此你需要尽可能多地把它自动化。让产品自动上传数据到S3、编写自动化脚本、自动开始分析数据、将下载脚本连接到RDS数据库、动态读取影响力列表。能自动化的全部自动化,自动创建API来提取和存储数据。
你需要知道你下一步应该开发什么东西,不只是在新功能方面,还涉及到平台修复和提高运行速度。你需要设置日志和监测系统,监测从twitter爬取数据的过程和往S3上传数据的过程,记录分析流程所用的时间和其他统计信息。
你也可以用像Nagios这样的工具来记录服务器统计信息,如CPU、RAM、network等。
同时你要记录用户正在做什么,每当用户使用用户界面的特定功能时,在日志中写上一行。
第7步
不断迭代
完成了前面的6步,你的MVP 1.0应该就能马不停蹄地给你赚钱了。同时你也全面地掌握了你的平台上的信息:
1.  爬取数据的速度;

2.  数据存储和分析的性能;

3.  客户在做什么。
由于你设置了全面的日志记录,产品中的所有缺点你都能直观地看出来。接下来就是进一步提升系统的时候了。
1.  根据日志来优化系统的整体性能和稳定性;

2.  扩展新功来为客户提供更多价值。
结论
如此看来,把想法变成一个成功的项目真的很简单,只需要7步:
1.  获取数据;

2.  选择合适的分析工具;

3.  用科学验证你的理论;

4.  想出你的商业模式;

5.  构建最简化可行产品;

6.  自动化和监测所有内容;

7.  不断迭代。
这7个步骤将产品的开发过程化繁为简,帮您设定优先事项,充分利用时间。

 
365 浏览

数据分析与体育的结合,事半工倍

智能科技类 不知道#99 2017-02-08 16:26 发表了文章 来自相关话题

在运动鞋底加上数据芯片,用来收集每次的运动规律,可以事半工倍。









穿上这种鞋子,着力点,速度,力,失败的数据,成功的数据,都记录,分析,想输都困难。 查看全部

QQ图片20170208160438.jpg

在运动鞋底加上数据芯片,用来收集每次的运动规律,可以事半工倍。
QQ图片20170208160319.jpg


QQ图片20170208162340.jpg

穿上这种鞋子,着力点,速度,力,失败的数据,成功的数据,都记录,分析,想输都困难。
410 浏览

译文 :如果我们心存偏见,还能做好数据分析吗

其它类 王五#1556 2017-01-06 11:08 发表了文章 来自相关话题

马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。

我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

原文翻译:
新闻记者和政策制定者正渐渐意识到一个问题,某些最有前途、最强大的计算工具存在巨大的缺陷。随着预测分析进入越来越多的领域——推送广告;开拓新市场;作出重要决定,比如让谁得到贷款,让谁得到新工作,甚至是把谁送进监狱和暗杀谁这样的伦理道德决定——某些特定群体遭受歧视和偏见的迹象日益增多。

 文着重探讨分析中这种普遍趋势的技术和社会层面。我研究了分析在执行过程中为什么难以做到公平公正,以及这说明分析处于怎样的社会背景。关于这个话题,美国计算机协会(ACM)举办的一场研讨会和我围绕这场研讨会所做的研究为我提供了一些有用见解。
分析无处不在
预测分析似乎证实了马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。这些压力推高了数据科学家(数据科学不只是统计学,但拥有深厚的统计学背景是必要条件)的薪水,并且使得市场调研公司Gartner作出了数据科学家将大量短缺的预测。

分析(更准确地说是模拟)甚至在近期热门电影《萨利机长》(Sully)中扮演了重要角色,但基本上是反派。该片说明了人类社会日益依赖算法的一个最令人不安的方面:身居高位、权力巨大的政策制定者有时会让算法替他们作出判断,而他们根本不明白算法的运行机制和可能造成的后果。在《萨利机长》中,调查员把一条事关重大的错误信息输入系统,还用不切实际的假设情境来训练系统。当这些计算的受害者对模拟背后的假设情境提出质疑时,调查员自鸣得意地说:“我们运行了20次模拟!”他们没有意识到,这20次模拟都是建立在同样的错误假设之上,将会得出同样的错误结论。当受害者要求查看详细的输入数据时,他们打官腔拒绝了这一要求。虽然《萨利机长》可能精心安排了事件背后的一些事实,但对于分析在现代生活中的使用,该片为我们提供了很多经验教训。

需要指出的是,分析可以帮助作出正确决策。在我参加ACM的那场研讨会期间,我的信用卡提供商进行的分析发现,有人窃取了我的信用卡信息,试图盗用我的卡。他们的专家分析系统立刻冻结了这张卡,没有造成金钱损失。虽然在旅行途中发现我的卡被冻结,给我带来了不便,但我还是感激那些保护了我和银行的分析工具。

使用分析的大多数公司希望通过减少主观性来减少偏见。偏见一直都存在,不需要计算机。越来越多的研究表明,工作面试无法有效地判定谁能做好这份工作,原因主要在于我们面对面评估应聘者时作出的仓促决定,这很容易受到内隐偏见的影响。对大脑运作的研究显示,白人和亚洲人在潜意识里对黑人抱有根深蒂固的不信任感,这使得改善警察执法实践的努力面临着更大的困难(举个例子)。偏见很早就开始影响人们的生活。黑人学生和白人学生在学校里做出同样的违规行为,黑人学生更容易受到处罚。我们从小就受到由来已久的偏见影响。

 不幸的是,预测分析常常重现社会的偏见,因为它们的创造者是带有偏见的人,或者因为它们使用带有偏见的历史数据进行训练。

一个广为人知、无可争辩的例子来自于拉坦娅·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隐私研究员,她最为人所知的,是证明了公共记录可以被用来揭露美国马萨诸塞州州长威廉·维尔德(William Weld)的医疗信息。这促使健康隐私法律作出了重大修改。她在2013年进行的研究显示,在谷歌(Google)上搜索美国黑人的常用名,往往会出现给出此人逮捕记录的广告。搜索白人的常用名,则往往不会出现这样的广告。但是人事经理、房东等人在搜索潜在候选人时,如果出现这样的广告,会很容易被吓阻,尤其是当一群求职者中只有黑人应聘者的名字导致这种广告出现的时候。

很多政策行动组织都签署了一份《大数据时代民权原则》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但没有说具体如何做到这一点。在美国,恐怕会很难让政策制定者关注到这个问题,因为新上台的当权者们自己就公开宣扬偏见和歧视,但有道德心的程序员及其雇主将会继续寻找解决办法。

让我们看看这对弄清分析中的偏见意味着什么。

成为有辨别力的思考者

我记得一位小学老师对她的学生们说,她希望我们成为“有辨别力的思考者”。区别对待有时是好事。如果某人曾经借钱挥霍,购买自己买不起的昂贵物品,那么不给他贷款对银行和公众都有好处。问题是我们用什么标准来加以区别。

 ACM研讨会的与会者们对道德标准进行了一番讨论。分析专业人士是否应该建立某种具体的道德标准来控制分析的使用?或者,专家是否应该以公开透明为目标,让公众了解决策的制定过程,而不建立具体的道德标准?

 我认为,最好的做法是坚持被广泛接受的社会标准。例如,在上世纪60年代,美国以宪法第一修正案为依据,禁止民族、种族和宗教歧视。后来,性别和残疾被加入保护行列,然后是性取向(在22个州的管辖范围内),近期则是性别认同(也就是跨性别者和非二元性别者)。1948年的联合国《世界人权宣言》在第二条中呼吁人人平等,“不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属之国家或领土的政治、法律管辖或者国际地位之不同而有所区别,无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下”。这里的“其他身份”表述模糊,但其余部分相当明确具体。

简而言之,就是由参与公共讨论的政治实体和政策制定者来决定什么可以区别对待,什么不可以。在某些情况下,计算机算法可能会使用种族和性别这样的标准来作出雇佣等决定,哪怕使用这些标准并不合法。

 计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

 1976年出版的一本经典论著《计算机能力与人类理性:从判断到计算》(Computer Power and Human Reason: From Judgment To Calculation)也传达了同样的讯息。该书作者约瑟夫·魏泽鲍姆(Joseph Weizenbaum)提出了一条关于人工智能的重要原则。他说,问题不在于计算机能不能够作出事关人类重要活动的决定,而在于它们应不应该作出这样的决定。

 因此,我认为,很多法律和政策声明已经明确了我们应该警惕偏见的领域。本文将会逐渐说明,这些政策考量会推动技术方面的决定。

数据科学家凯茜·奥尼尔(Cathy O'Neil)在深受好评的《数学杀伤性武器》(Weapons of Math Destruction)一书中,提出了几个令人信服的观点,包括:

 由于企业是从他人那里购买数据或分析的,数据的收集和处理常常是以层级为单位发生的。算法最初的不透明性会随着层级的累加而增大,每个层级引入的错误因素也是如此。

 将我们与趋势进行比较的算法,最终会用他人的行为来评判我们,而不是用我们自己的行为来评判我们。我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

 一旦某人被划入表现糟糕者的行列,被认为是不可靠的员工、潜在的罪犯或者信用不好的人,那么算法就会进行区别对待,使他失去机会,越来越把他推向贫穷和缺乏机会的境地。

奥尼尔的弥补方案不只是检测偏见,还包括通过一个广泛的社会项目来评估社会的目标,把对抗经济压力的公平性考虑在内,利用算法帮助弱势者,而不是惩罚他们。

 透明性的阴暗面

 透明性可以说是我们这个时代的战斗口号:让所有人看到你的决策过程!全球已有70个国家加入了开放政府伙伴关系联盟(Open Government Partnership),承诺让公民参与财政预算和法律法规的制定。其中的大多数国家一如往常,继续面对着战争、腐败和其他问题。

 但先不要对透明性过于悲观。从很多方面来说,透明性正在提升,这得益于更高的教育水平和新的传播媒体。开源运动大大加强了程序的透明性。开源软件或其他措施能否使预测分析更加公平呢?

 利用分析对人进行分类的企业担心,被分析的对象如果了解输入数据的标准,就可以把分析系统玩弄于股掌之上。很多标准涉及到难以改变的重要生活特征,比如收入。但也有很多标准似乎只是更重要特征的简单代表,这就有可能让精明的分析对象弄虚作假。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

 因此,那些密切关注分析使用状况的人承认,透明性并不总是好事。一些专家反对在分析中使用简单的二元标准,说这种标准过于粗糙,无助于作出正确决定。我认为,无数家机构的经历已经证明,这样的粗糙标准很容易被看穿。分析对象的状况在不断变化,所以标准必须与时俱进。

 对于加强透明性的努力来说,还有另一个障碍需要克服:一些公司的分析会变来变去,谷歌的排名算法就是如此。外人不可能透彻了解每一项变动。另外,机器学习技术往往会生成令人费解的决策树,就连编写这些程序的人自己都搞不明白。

 另一方面,固定不变的算法可能会逐渐偏离正确的预测,因为作为输入数据一部分的生活状况在不断变化。这解释了道琼斯工业平均指数(DJIA)为什么时不时地改变包含的成分股公司:在19世纪80年代构成美国经济主要部分的那些公司要么已经消亡,要么变得无足轻重,而现代经济的主要构成部分在那时甚至根本无从想象(最初的12间DJIA成分股公司,现在只剩下了通用电气这一间)。出于类似的原因,分析必须时常用新的、准确的输入数据进行重新计算。当分析产品被出售时,我们又会遇到另一种风险:它们可能会逐渐偏离现实,沉沦于过去,从而对依靠它们的公司和被它们错误分类的人造成负面影响。

 力量的不平衡也扮演了非常重要的角色。本文稍后会以一篇论述刑事量刑的著名文章为背景,向大家说明,从外部对算法发起挑战是极为困难的,因为部署算法的机构比作为分析对象的个人要远为强大得多。亚历克斯·罗森布拉特(Alex Rosenblat)、塔玛拉·克尼斯(Tamara Kneese)和丹娜·博伊德(DanahBoyd)撰写的一篇文章指出,要赢得歧视诉讼是很难的。也许,实现公平公正的最有效方法是让企业把他们的分析交给某个评审委员会审查,类似于评审学术研究的机构审查委员会(IRB),由很多利益相关者组成,包括可能受到分析不利影响的人。这样的委员会是否有能力评估深奥的算法还是个未知数,但至少他们能告诉程序员,某些输入数据是否存在固有偏见。

 弥补措施

 在学术界以外,批评预测分析存在偏见的人一直致力于揭露那些偏见(请注意,他们也在使用同样的机器学习工具!)。他们常常暗示,应该停止使用分析工具来作出对人类产生深远影响的决定。分析的预期影响是一个标准,企业可以据此判断是否信赖分析。企业利用A/B测试来确定网站访客点击绿色图标的次数是否超过蓝色图标,看上去没有什么不好。另一方面,Facebook通过信息推送来影响用户情绪的做法被广泛视作为不道德行为。

 所以说,社会尚未弄清楚分析的适当角色,或者在分辨不良后果方面还不够熟练——技术专家Meng Weng Wong称此为“误算法”(malgorithm)。而分析实在太过强大,太有用处,我们也不能乐于拒绝。

 一种弥补方案是让用户有机会挑战分析结果,就像几十年前美国联邦贸易委员会(Federal Trade commission)颁布的、被很多公司以各种形式采纳的“公平信息实践原则”(FIPPS)那样。企业可以通过任何方式作出决定,但过程必须透明,并赋予个人挑战该决定的权利。欧盟已经将这一原则写入了2016年4月的《数据保护指令》,该指令对上世纪80年代的隐私法规进行了补充更新。此外,普林斯顿大学的一个团队也为那些希望打造公平算法的程序员编制了一份指南。

关于分析的指导性假设是,使用分析的机构能够提供其决定的可审查记录。《数据保护指令》要求信息处理者向任何个人提供作出某个决定的理由,比如拒绝贷款申请的决定。
这个原则立意很好,但难以落实。主要有以下几个问题:

 首先,个人必须清楚分析被用来达成了某个决定,必须知道是哪家公司做出了这个决定,必须明白自己有权挑战该决定,必须清楚提出挑战的途径和程序,必须感到这么做是安全的。

 在很多情况下,这些条件并不是全都具备。例如,如果广告算法偏向男性,没有向某位女性展示她本来有资格应聘的招聘广告,她永远都不会知道自己成为了这种歧视的受害者。她也很难知道谁应该为这个决定负责。如果使用该算法的那家公司控制着你的生活,比如你的雇主或者你投保的保险公司,那么你很可能宁可息事宁人,不要求进行调查。

 分析必须透明。有时候这很容易做到。例如,Wolfram Alpha将公布它用来返回搜索结果的规则。有些分析就确实有规则可依,且已经公开了自己的规则。

 但很多人工智能程序,比如采用遗传算法或深度学习的程序,却并不透明(除非被设计成透明)。它们自行进化和改良,不需要人类干预。它们非常强大,也可以做到非常准确,但到它们得出结论的时候,整个过程已经变得极为复杂,大多数人都无法理解。
允许个人提出挑战的弥补方案不具有普遍意义:即使个人敢于要求推翻已经作出的决定,这也无助于改善系统的整体公平性。企业可能会为了某个人而重新审视其决定,但不会停止这种可能伤害成千上万人的做法。实际上,欧盟的《数据保护指令》并非在反映全社会的共同需求,而是把人们当成孤立的个体对待,而任何个体都不会有足够大的个人影响力来改变不公平的系统。

 有鉴于此,似乎应该要求进行分析的企业提供多种形式的透明性。
首先,它们需要确定并披露出自己一直被用于作出影响个人的决定。
企业应该和利益相关者(尤其是受系统影响的人群)进行开诚布公的讨论,谈谈什么是公平,以及系统是否准确反映了人们生活的真实情况。
对人们生活产生重大影响的所有预测分析系统还应该接受查验或追踪。不接受查验的系统有如不打印选票的电子投票机:它们根本不适合这项工作。

 著名计算机科学家辛西娅·德沃克(CynthiaDwork)发明了一种验证公平性的有趣方法,她称之为“觉知性公平”。借助差分隐私实验,她的团队试图利用密码学来验证算法的公平性。不幸的是,这项技术恐怕过于复杂,无法整合进“正在吞噬整个世界”的分析系统。

 计算机科学家们在一篇论文中谈到了另一种方法:把公平性测试整合到系统开发过程中。这篇论文提出了一个有趣的前提:我们不能对种族、性别等差异视而不见。我们必须清楚地意识到这些差异,必须明确地测试它们。这种“平权法案”方法完全不同于某些统计学家和数据科学家的观点:他们相信,他们能够远离社会影响,他们的技术可以保证客观性。

案例研究:刑事量刑

 在本文最后,将会探讨最广为人知的一项分析偏见研究,并从中得出一些新的结论。我说的是一篇关于为已定罪罪犯量刑的著名文章。今年5月,这篇文章发表于民间新闻网站ProPublica,在让公众了解预测分析的风险方面发挥了重要作用。朱莉娅·安格温(Julia Angwin)及其合著者将关注点放在了一款名叫COMPAS的软件上,很多地方的司法机关都用这款软件来决定是判罪犯缓刑还是把他们关进监狱。作者们说,这样的决定带有种族偏见,因为黑人罪犯比白人罪犯更容易被COMPAS划入高风险类别(意味着他们更可能在缓刑期内再次犯罪),这是不公平的。
作者们本来可以说COMPAS常常出错,但很多时候都是对的。他们本来可以建议,鉴于错误率较高,法官只应该把COMPAS当成众多的判决依据之一。但他们却更进一步,将自己推入了一场激烈的争论之中。

 所有人似乎分成了两派:

1.      COMPAS的算法对于白人和黑人将犯下更多罪行(再次犯罪)的预测同样准确。

2.      COMPAS的算法对于黑人将再次犯罪的预测失误率远高于白人,这是错误的,也伤害了黑人群体,指控他们将会再次犯罪,而事实上他们并不会这样。

 那么,什么是公平?

ProPublica的分析引发了争议。几位评论员说,ProPublica没有考虑到另一个重要差异:黑人罪犯被判二次犯罪的可能性确实远高于白人罪犯。The American Conservative网站发文解释了ProPublica为什么会得出这样的结论。《华盛顿邮报》的一篇文章也提出了同样的观点。基本上来说,这些文章都声称,黑人罪犯比白人罪犯更容易被划入高风险类别,这是由输入数据决定的,不可能受到人为操纵。

 COMPAS软件的开发机构Northpointe在反驳ProPublica的那篇文章时,也提出了这一看法。对于ProPublica指控COMPAS将黑人错误地划入高风险类别的可能性远高于白人的核心论断,Northpointe反驳说:“这种模式没有显示出存在偏见的迹象,而是使用公正的评分规则得出的自然结果。那些群体碰巧呈现出不同的评分分布。”他们引用了一项非相关研究的结果,说他们没法做手脚调高黑人的高风险评分。
Northpointe还说,在那项研究中,白人的年纪往往比黑人更大,这降低了他们再次犯罪的可能性。ProPublica的研究确实发现,年龄与犯罪紧密相关。他们也以其他理由批评ProPublica的研究,但在我看来,黑人更可能被再次逮捕的倾向是所有这些评论的核心议题。

 我们能从这场争论中得出很多有趣的通用结论。首先,数据科学本身就充满争议。尽管该领域以客观性为目标,但统计学家们并不总是意见相合。其次,在评判分析的影响时,评判者肯定会受到自身价值观的影响。ProPublica认为,COMPAS所遵循的道德标准已经偏离了Northpointe采用的那些标准。

但我们应该从中吸取的主要教训,则是提出以下问题:黑人的再犯率为什么更高?如果这是ProPublica所说的偏见的来源,为什么会发生这种情况?

在这里,我们必须借助社会科学研究,这些研究的探讨范畴往往要比这篇文章广泛得多。基本上来说,研究人员已经证明,在避免犯罪方面,黑人往往缺乏白人所能获得的种种支持。米歇尔·亚历山大(Michelle Alexander)的著作《新种族隔离主义》(The New Jim Crow)对此作了很好的论述。与白人相比,黑人不太可能拥有可以帮助他们找到工作的联系人,不太可能被聘用(尤其是在有犯罪前科的情况下),不太可能得到住房和其他赖以为生的重要资源,通常也不太可能拥有使他们免于再次犯罪的社会结构。

因此,预测分析结果的差异帮助我们看到了现实生活中的差异。

 斯威尼的研究也得出了类似结论。她发问道:谷歌不恰当地展示黑人常用名的“逮捕记录”广告,谁应该为此负责?谷歌和提供那些广告的公司都否认存在任何蓄意偏见。我倾向于相信他们,因为他们如果刻意地把种族歧视思想融入到广告展示中,将会面临很大的风险。那么,还有什么其他的答案呢?终端用户行为:普通网络用户搜索黑人逮捕记录的频率肯定超过白人。这种社会偏见被算法捕捉并融入到了自己的分析过程中。

 《麻省理工科技评论》的一篇文章表达了同样的看法,认为普通人的偏见会通过评级系统传递到临场经济(contingent economy)中。于是,我们得到的就是卡通人物勃哥(Pogo)的那句经典结论:我们已经遇到了敌人,那就是我们自己。或者,用迈克·鲁克德斯(MikeLoukides)的话来说:“我们的AI就是我们自己。”

可能的弥补措施

数据科学家本能地通过两个办法来验证准确性:检查输入数据和检查分析模型。为我们提供数据的真实环境就存在不公平的歧视时,需要我们积极进行详细检查,不遗余力地消除数据中的偏见。就像前文提到的COMPAS,显然依据的就是带有种族偏见的数据。我们应该有意识地采取措施恢复分析系统的公平性。

 程序员和数据科学家可以成为对抗偏见的先锋。但是算法领域的用户和监管该领域的政策制定者也可以发挥带头作用,主动要求对算法进行审查。理想情况下,分析将会公开给公众接受审查,但由于上文提到的那些原因(保护商业机密、避免系统被玩弄于股掌之上等等),这通常无法实现。不过,可以按照严格的许可规定,授权一群专家以找出潜在偏见为目的,对数据和算法进行评估。

承认偏见是坏事(这个原则现在常常受到质疑)后,公众需要采取的第一步就是明白算法可能引入和强化偏见。然后,我们必须认识到,偏见不是来自于程序员(哪怕他可能是白人、男性和高收入者)或程序,而是来自于几千年来造成社会不公的那些因素。算法不是客观的,但它们客观地体现了人类自身的罪孽。





为什么我们用的是交流电不是直流电?
要写标书了,大家有什么好的建议?
电动调节阀总出故障,怎么处理? 查看全部
马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。

我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

原文翻译:
新闻记者和政策制定者正渐渐意识到一个问题,某些最有前途、最强大的计算工具存在巨大的缺陷。随着预测分析进入越来越多的领域——推送广告;开拓新市场;作出重要决定,比如让谁得到贷款,让谁得到新工作,甚至是把谁送进监狱和暗杀谁这样的伦理道德决定——某些特定群体遭受歧视和偏见的迹象日益增多。

 文着重探讨分析中这种普遍趋势的技术和社会层面。我研究了分析在执行过程中为什么难以做到公平公正,以及这说明分析处于怎样的社会背景。关于这个话题,美国计算机协会(ACM)举办的一场研讨会和我围绕这场研讨会所做的研究为我提供了一些有用见解。
分析无处不在
预测分析似乎证实了马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。这些压力推高了数据科学家(数据科学不只是统计学,但拥有深厚的统计学背景是必要条件)的薪水,并且使得市场调研公司Gartner作出了数据科学家将大量短缺的预测。

分析(更准确地说是模拟)甚至在近期热门电影《萨利机长》(Sully)中扮演了重要角色,但基本上是反派。该片说明了人类社会日益依赖算法的一个最令人不安的方面:身居高位、权力巨大的政策制定者有时会让算法替他们作出判断,而他们根本不明白算法的运行机制和可能造成的后果。在《萨利机长》中,调查员把一条事关重大的错误信息输入系统,还用不切实际的假设情境来训练系统。当这些计算的受害者对模拟背后的假设情境提出质疑时,调查员自鸣得意地说:“我们运行了20次模拟!”他们没有意识到,这20次模拟都是建立在同样的错误假设之上,将会得出同样的错误结论。当受害者要求查看详细的输入数据时,他们打官腔拒绝了这一要求。虽然《萨利机长》可能精心安排了事件背后的一些事实,但对于分析在现代生活中的使用,该片为我们提供了很多经验教训。

需要指出的是,分析可以帮助作出正确决策。在我参加ACM的那场研讨会期间,我的信用卡提供商进行的分析发现,有人窃取了我的信用卡信息,试图盗用我的卡。他们的专家分析系统立刻冻结了这张卡,没有造成金钱损失。虽然在旅行途中发现我的卡被冻结,给我带来了不便,但我还是感激那些保护了我和银行的分析工具。

使用分析的大多数公司希望通过减少主观性来减少偏见。偏见一直都存在,不需要计算机。越来越多的研究表明,工作面试无法有效地判定谁能做好这份工作,原因主要在于我们面对面评估应聘者时作出的仓促决定,这很容易受到内隐偏见的影响。对大脑运作的研究显示,白人和亚洲人在潜意识里对黑人抱有根深蒂固的不信任感,这使得改善警察执法实践的努力面临着更大的困难(举个例子)。偏见很早就开始影响人们的生活。黑人学生和白人学生在学校里做出同样的违规行为,黑人学生更容易受到处罚。我们从小就受到由来已久的偏见影响。

 不幸的是,预测分析常常重现社会的偏见,因为它们的创造者是带有偏见的人,或者因为它们使用带有偏见的历史数据进行训练。

一个广为人知、无可争辩的例子来自于拉坦娅·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隐私研究员,她最为人所知的,是证明了公共记录可以被用来揭露美国马萨诸塞州州长威廉·维尔德(William Weld)的医疗信息。这促使健康隐私法律作出了重大修改。她在2013年进行的研究显示,在谷歌(Google)上搜索美国黑人的常用名,往往会出现给出此人逮捕记录的广告。搜索白人的常用名,则往往不会出现这样的广告。但是人事经理、房东等人在搜索潜在候选人时,如果出现这样的广告,会很容易被吓阻,尤其是当一群求职者中只有黑人应聘者的名字导致这种广告出现的时候。

很多政策行动组织都签署了一份《大数据时代民权原则》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但没有说具体如何做到这一点。在美国,恐怕会很难让政策制定者关注到这个问题,因为新上台的当权者们自己就公开宣扬偏见和歧视,但有道德心的程序员及其雇主将会继续寻找解决办法。

让我们看看这对弄清分析中的偏见意味着什么。

成为有辨别力的思考者

我记得一位小学老师对她的学生们说,她希望我们成为“有辨别力的思考者”。区别对待有时是好事。如果某人曾经借钱挥霍,购买自己买不起的昂贵物品,那么不给他贷款对银行和公众都有好处。问题是我们用什么标准来加以区别。

 ACM研讨会的与会者们对道德标准进行了一番讨论。分析专业人士是否应该建立某种具体的道德标准来控制分析的使用?或者,专家是否应该以公开透明为目标,让公众了解决策的制定过程,而不建立具体的道德标准?

 我认为,最好的做法是坚持被广泛接受的社会标准。例如,在上世纪60年代,美国以宪法第一修正案为依据,禁止民族、种族和宗教歧视。后来,性别和残疾被加入保护行列,然后是性取向(在22个州的管辖范围内),近期则是性别认同(也就是跨性别者和非二元性别者)。1948年的联合国《世界人权宣言》在第二条中呼吁人人平等,“不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属之国家或领土的政治、法律管辖或者国际地位之不同而有所区别,无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下”。这里的“其他身份”表述模糊,但其余部分相当明确具体。

简而言之,就是由参与公共讨论的政治实体和政策制定者来决定什么可以区别对待,什么不可以。在某些情况下,计算机算法可能会使用种族和性别这样的标准来作出雇佣等决定,哪怕使用这些标准并不合法。

 计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。

 1976年出版的一本经典论著《计算机能力与人类理性:从判断到计算》(Computer Power and Human Reason: From Judgment To Calculation)也传达了同样的讯息。该书作者约瑟夫·魏泽鲍姆(Joseph Weizenbaum)提出了一条关于人工智能的重要原则。他说,问题不在于计算机能不能够作出事关人类重要活动的决定,而在于它们应不应该作出这样的决定。

 因此,我认为,很多法律和政策声明已经明确了我们应该警惕偏见的领域。本文将会逐渐说明,这些政策考量会推动技术方面的决定。

数据科学家凯茜·奥尼尔(Cathy O'Neil)在深受好评的《数学杀伤性武器》(Weapons of Math Destruction)一书中,提出了几个令人信服的观点,包括:

 由于企业是从他人那里购买数据或分析的,数据的收集和处理常常是以层级为单位发生的。算法最初的不透明性会随着层级的累加而增大,每个层级引入的错误因素也是如此。

 将我们与趋势进行比较的算法,最终会用他人的行为来评判我们,而不是用我们自己的行为来评判我们。我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。

 一旦某人被划入表现糟糕者的行列,被认为是不可靠的员工、潜在的罪犯或者信用不好的人,那么算法就会进行区别对待,使他失去机会,越来越把他推向贫穷和缺乏机会的境地。

奥尼尔的弥补方案不只是检测偏见,还包括通过一个广泛的社会项目来评估社会的目标,把对抗经济压力的公平性考虑在内,利用算法帮助弱势者,而不是惩罚他们。

 透明性的阴暗面

 透明性可以说是我们这个时代的战斗口号:让所有人看到你的决策过程!全球已有70个国家加入了开放政府伙伴关系联盟(Open Government Partnership),承诺让公民参与财政预算和法律法规的制定。其中的大多数国家一如往常,继续面对着战争、腐败和其他问题。

 但先不要对透明性过于悲观。从很多方面来说,透明性正在提升,这得益于更高的教育水平和新的传播媒体。开源运动大大加强了程序的透明性。开源软件或其他措施能否使预测分析更加公平呢?

 利用分析对人进行分类的企业担心,被分析的对象如果了解输入数据的标准,就可以把分析系统玩弄于股掌之上。很多标准涉及到难以改变的重要生活特征,比如收入。但也有很多标准似乎只是更重要特征的简单代表,这就有可能让精明的分析对象弄虚作假。

在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。

 因此,那些密切关注分析使用状况的人承认,透明性并不总是好事。一些专家反对在分析中使用简单的二元标准,说这种标准过于粗糙,无助于作出正确决定。我认为,无数家机构的经历已经证明,这样的粗糙标准很容易被看穿。分析对象的状况在不断变化,所以标准必须与时俱进。

 对于加强透明性的努力来说,还有另一个障碍需要克服:一些公司的分析会变来变去,谷歌的排名算法就是如此。外人不可能透彻了解每一项变动。另外,机器学习技术往往会生成令人费解的决策树,就连编写这些程序的人自己都搞不明白。

 另一方面,固定不变的算法可能会逐渐偏离正确的预测,因为作为输入数据一部分的生活状况在不断变化。这解释了道琼斯工业平均指数(DJIA)为什么时不时地改变包含的成分股公司:在19世纪80年代构成美国经济主要部分的那些公司要么已经消亡,要么变得无足轻重,而现代经济的主要构成部分在那时甚至根本无从想象(最初的12间DJIA成分股公司,现在只剩下了通用电气这一间)。出于类似的原因,分析必须时常用新的、准确的输入数据进行重新计算。当分析产品被出售时,我们又会遇到另一种风险:它们可能会逐渐偏离现实,沉沦于过去,从而对依靠它们的公司和被它们错误分类的人造成负面影响。

 力量的不平衡也扮演了非常重要的角色。本文稍后会以一篇论述刑事量刑的著名文章为背景,向大家说明,从外部对算法发起挑战是极为困难的,因为部署算法的机构比作为分析对象的个人要远为强大得多。亚历克斯·罗森布拉特(Alex Rosenblat)、塔玛拉·克尼斯(Tamara Kneese)和丹娜·博伊德(DanahBoyd)撰写的一篇文章指出,要赢得歧视诉讼是很难的。也许,实现公平公正的最有效方法是让企业把他们的分析交给某个评审委员会审查,类似于评审学术研究的机构审查委员会(IRB),由很多利益相关者组成,包括可能受到分析不利影响的人。这样的委员会是否有能力评估深奥的算法还是个未知数,但至少他们能告诉程序员,某些输入数据是否存在固有偏见。

 弥补措施

 在学术界以外,批评预测分析存在偏见的人一直致力于揭露那些偏见(请注意,他们也在使用同样的机器学习工具!)。他们常常暗示,应该停止使用分析工具来作出对人类产生深远影响的决定。分析的预期影响是一个标准,企业可以据此判断是否信赖分析。企业利用A/B测试来确定网站访客点击绿色图标的次数是否超过蓝色图标,看上去没有什么不好。另一方面,Facebook通过信息推送来影响用户情绪的做法被广泛视作为不道德行为。

 所以说,社会尚未弄清楚分析的适当角色,或者在分辨不良后果方面还不够熟练——技术专家Meng Weng Wong称此为“误算法”(malgorithm)。而分析实在太过强大,太有用处,我们也不能乐于拒绝。

 一种弥补方案是让用户有机会挑战分析结果,就像几十年前美国联邦贸易委员会(Federal Trade commission)颁布的、被很多公司以各种形式采纳的“公平信息实践原则”(FIPPS)那样。企业可以通过任何方式作出决定,但过程必须透明,并赋予个人挑战该决定的权利。欧盟已经将这一原则写入了2016年4月的《数据保护指令》,该指令对上世纪80年代的隐私法规进行了补充更新。此外,普林斯顿大学的一个团队也为那些希望打造公平算法的程序员编制了一份指南。

关于分析的指导性假设是,使用分析的机构能够提供其决定的可审查记录。《数据保护指令》要求信息处理者向任何个人提供作出某个决定的理由,比如拒绝贷款申请的决定。
这个原则立意很好,但难以落实。主要有以下几个问题:

 首先,个人必须清楚分析被用来达成了某个决定,必须知道是哪家公司做出了这个决定,必须明白自己有权挑战该决定,必须清楚提出挑战的途径和程序,必须感到这么做是安全的。

 在很多情况下,这些条件并不是全都具备。例如,如果广告算法偏向男性,没有向某位女性展示她本来有资格应聘的招聘广告,她永远都不会知道自己成为了这种歧视的受害者。她也很难知道谁应该为这个决定负责。如果使用该算法的那家公司控制着你的生活,比如你的雇主或者你投保的保险公司,那么你很可能宁可息事宁人,不要求进行调查。

 分析必须透明。有时候这很容易做到。例如,Wolfram Alpha将公布它用来返回搜索结果的规则。有些分析就确实有规则可依,且已经公开了自己的规则。

 但很多人工智能程序,比如采用遗传算法或深度学习的程序,却并不透明(除非被设计成透明)。它们自行进化和改良,不需要人类干预。它们非常强大,也可以做到非常准确,但到它们得出结论的时候,整个过程已经变得极为复杂,大多数人都无法理解。
允许个人提出挑战的弥补方案不具有普遍意义:即使个人敢于要求推翻已经作出的决定,这也无助于改善系统的整体公平性。企业可能会为了某个人而重新审视其决定,但不会停止这种可能伤害成千上万人的做法。实际上,欧盟的《数据保护指令》并非在反映全社会的共同需求,而是把人们当成孤立的个体对待,而任何个体都不会有足够大的个人影响力来改变不公平的系统。

 有鉴于此,似乎应该要求进行分析的企业提供多种形式的透明性。
首先,它们需要确定并披露出自己一直被用于作出影响个人的决定。
企业应该和利益相关者(尤其是受系统影响的人群)进行开诚布公的讨论,谈谈什么是公平,以及系统是否准确反映了人们生活的真实情况。
对人们生活产生重大影响的所有预测分析系统还应该接受查验或追踪。不接受查验的系统有如不打印选票的电子投票机:它们根本不适合这项工作。

 著名计算机科学家辛西娅·德沃克(CynthiaDwork)发明了一种验证公平性的有趣方法,她称之为“觉知性公平”。借助差分隐私实验,她的团队试图利用密码学来验证算法的公平性。不幸的是,这项技术恐怕过于复杂,无法整合进“正在吞噬整个世界”的分析系统。

 计算机科学家们在一篇论文中谈到了另一种方法:把公平性测试整合到系统开发过程中。这篇论文提出了一个有趣的前提:我们不能对种族、性别等差异视而不见。我们必须清楚地意识到这些差异,必须明确地测试它们。这种“平权法案”方法完全不同于某些统计学家和数据科学家的观点:他们相信,他们能够远离社会影响,他们的技术可以保证客观性。

案例研究:刑事量刑

 在本文最后,将会探讨最广为人知的一项分析偏见研究,并从中得出一些新的结论。我说的是一篇关于为已定罪罪犯量刑的著名文章。今年5月,这篇文章发表于民间新闻网站ProPublica,在让公众了解预测分析的风险方面发挥了重要作用。朱莉娅·安格温(Julia Angwin)及其合著者将关注点放在了一款名叫COMPAS的软件上,很多地方的司法机关都用这款软件来决定是判罪犯缓刑还是把他们关进监狱。作者们说,这样的决定带有种族偏见,因为黑人罪犯比白人罪犯更容易被COMPAS划入高风险类别(意味着他们更可能在缓刑期内再次犯罪),这是不公平的。
作者们本来可以说COMPAS常常出错,但很多时候都是对的。他们本来可以建议,鉴于错误率较高,法官只应该把COMPAS当成众多的判决依据之一。但他们却更进一步,将自己推入了一场激烈的争论之中。

 所有人似乎分成了两派:

1.      COMPAS的算法对于白人和黑人将犯下更多罪行(再次犯罪)的预测同样准确。

2.      COMPAS的算法对于黑人将再次犯罪的预测失误率远高于白人,这是错误的,也伤害了黑人群体,指控他们将会再次犯罪,而事实上他们并不会这样。

 那么,什么是公平?

ProPublica的分析引发了争议。几位评论员说,ProPublica没有考虑到另一个重要差异:黑人罪犯被判二次犯罪的可能性确实远高于白人罪犯。The American Conservative网站发文解释了ProPublica为什么会得出这样的结论。《华盛顿邮报》的一篇文章也提出了同样的观点。基本上来说,这些文章都声称,黑人罪犯比白人罪犯更容易被划入高风险类别,这是由输入数据决定的,不可能受到人为操纵。

 COMPAS软件的开发机构Northpointe在反驳ProPublica的那篇文章时,也提出了这一看法。对于ProPublica指控COMPAS将黑人错误地划入高风险类别的可能性远高于白人的核心论断,Northpointe反驳说:“这种模式没有显示出存在偏见的迹象,而是使用公正的评分规则得出的自然结果。那些群体碰巧呈现出不同的评分分布。”他们引用了一项非相关研究的结果,说他们没法做手脚调高黑人的高风险评分。
Northpointe还说,在那项研究中,白人的年纪往往比黑人更大,这降低了他们再次犯罪的可能性。ProPublica的研究确实发现,年龄与犯罪紧密相关。他们也以其他理由批评ProPublica的研究,但在我看来,黑人更可能被再次逮捕的倾向是所有这些评论的核心议题。

 我们能从这场争论中得出很多有趣的通用结论。首先,数据科学本身就充满争议。尽管该领域以客观性为目标,但统计学家们并不总是意见相合。其次,在评判分析的影响时,评判者肯定会受到自身价值观的影响。ProPublica认为,COMPAS所遵循的道德标准已经偏离了Northpointe采用的那些标准。

但我们应该从中吸取的主要教训,则是提出以下问题:黑人的再犯率为什么更高?如果这是ProPublica所说的偏见的来源,为什么会发生这种情况?

在这里,我们必须借助社会科学研究,这些研究的探讨范畴往往要比这篇文章广泛得多。基本上来说,研究人员已经证明,在避免犯罪方面,黑人往往缺乏白人所能获得的种种支持。米歇尔·亚历山大(Michelle Alexander)的著作《新种族隔离主义》(The New Jim Crow)对此作了很好的论述。与白人相比,黑人不太可能拥有可以帮助他们找到工作的联系人,不太可能被聘用(尤其是在有犯罪前科的情况下),不太可能得到住房和其他赖以为生的重要资源,通常也不太可能拥有使他们免于再次犯罪的社会结构。

因此,预测分析结果的差异帮助我们看到了现实生活中的差异。

 斯威尼的研究也得出了类似结论。她发问道:谷歌不恰当地展示黑人常用名的“逮捕记录”广告,谁应该为此负责?谷歌和提供那些广告的公司都否认存在任何蓄意偏见。我倾向于相信他们,因为他们如果刻意地把种族歧视思想融入到广告展示中,将会面临很大的风险。那么,还有什么其他的答案呢?终端用户行为:普通网络用户搜索黑人逮捕记录的频率肯定超过白人。这种社会偏见被算法捕捉并融入到了自己的分析过程中。

 《麻省理工科技评论》的一篇文章表达了同样的看法,认为普通人的偏见会通过评级系统传递到临场经济(contingent economy)中。于是,我们得到的就是卡通人物勃哥(Pogo)的那句经典结论:我们已经遇到了敌人,那就是我们自己。或者,用迈克·鲁克德斯(MikeLoukides)的话来说:“我们的AI就是我们自己。”

可能的弥补措施

数据科学家本能地通过两个办法来验证准确性:检查输入数据和检查分析模型。为我们提供数据的真实环境就存在不公平的歧视时,需要我们积极进行详细检查,不遗余力地消除数据中的偏见。就像前文提到的COMPAS,显然依据的就是带有种族偏见的数据。我们应该有意识地采取措施恢复分析系统的公平性。

 程序员和数据科学家可以成为对抗偏见的先锋。但是算法领域的用户和监管该领域的政策制定者也可以发挥带头作用,主动要求对算法进行审查。理想情况下,分析将会公开给公众接受审查,但由于上文提到的那些原因(保护商业机密、避免系统被玩弄于股掌之上等等),这通常无法实现。不过,可以按照严格的许可规定,授权一群专家以找出潜在偏见为目的,对数据和算法进行评估。

承认偏见是坏事(这个原则现在常常受到质疑)后,公众需要采取的第一步就是明白算法可能引入和强化偏见。然后,我们必须认识到,偏见不是来自于程序员(哪怕他可能是白人、男性和高收入者)或程序,而是来自于几千年来造成社会不公的那些因素。算法不是客观的,但它们客观地体现了人类自身的罪孽。

QQ图片20170105094807.jpg

为什么我们用的是交流电不是直流电?
要写标书了,大家有什么好的建议?
电动调节阀总出故障,怎么处理?
365 浏览

数据说希拉里会赢,它错在哪里?

机械自动化类 料盘挡板 2016-11-21 13:51 发表了文章 来自相关话题

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。


唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。


“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。


几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。


大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。


从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。


但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。


比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。


今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。


还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。


这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。


“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。


除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。


对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。


该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。


数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。


数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。


Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”


那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。


538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。


除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。


但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。


“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”


但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。


比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。


分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。


“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”
 
 
 
 
 
转自:大数据文摘 原作者|Steve Lohr& Natasha Singer 翻译|汤人懿 校对|蒋晔
智造家提供 查看全部

3.9_.JPG

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。


唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。


“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。


几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。


大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。


从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。


但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。


比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。


今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。


还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。


这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。


“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。


除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。


对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。


该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。


数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。


数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。


Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”


那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。


538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。


除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。


但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。


“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”


但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。


比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。


分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。


“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”
 
 
 
 
 
转自:大数据文摘 原作者|Steve Lohr& Natasha Singer 翻译|汤人懿 校对|蒋晔
智造家提供
526 浏览

可视化1300个故事 揭秘6种情节套路

机械自动化类 密泰传动系统 2016-10-31 16:29 发表了文章 来自相关话题

伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。



◆ ◆ ◆

导言


人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。

而现在,随着计算能力、语言处理和文本数字化三种技术方面的改善,以文字“大数据”来研究某种文化成为了可能。


正如美国作家库尔特·冯内古特(Kurt Vonnegut)曾经说过的那样:“这些故事都有着美丽而方便计算的格式,没有理由说我们不能把它们套进计算机的算法里去。”





图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线

(注:整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析:Hedonometer / Andy Reagan / Kirsch)


伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。


这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据,并由此解开了讲故事之所以能够吸引人们的本质特征。




◆ ◆ ◆

实验展示

 
科学家收集了1327本书作为样本,这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事(P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的)。为了生成样本书的情感线,研究者将文本分为了一个个10000的小块,并分析每个小块里的所表达的感情。(如图2所示)





图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。

 

六种基本故事线形态分别为:

1.“白手起家”(故事线主要特征形态为:上升)

2.“悲剧”或“凤凰变麻雀”(故事线主要特征形态为:下降)

3.“陷入困境的人”(故事线主要特征形态为:先降后升)

4.“伊卡洛斯” (故事线主要特征形态为:先升后降)(P.S.希腊神话中代达罗斯的儿子。在用蜡和羽毛做的翅膀逃离克里特岛时,因飞得太高,双翼上的蜡遭太阳融化跌落水中丧生,被埋葬在一个海岛上。)

5.“灰姑娘”(故事线主要特征形态为:先升后降再升)

6.“俄狄浦斯”(故事线主要特征形态为:先降后升再降)(P.S. 俄狄浦斯是外国文学史上典型的命运悲剧人物。他在不知情的情况下,杀死了自己的父亲并娶了自己的母亲。)





图3 六种基本故事线的形态展示
(注:从左至右从上到下依次为:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析:Reagan et. al/ University of Vermont)





◆ ◆ ◆

结论

当研究团队确定了六种基本的情感故事线之后,又进一步观察了情感线与其故事下载量之间的关系,并据此探索最受欢迎的情感故事线类型。最终的研究结果显示,最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。


另外,把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上,研究结果显示,最受欢迎的故事往往是连续两次出现“陷入困境的人”的,还有“灰姑娘”紧接一个“悲剧”的故事。
 
 
 
来源:大数据文摘
 
智造家提供
  查看全部
7.1_.jpg
伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。



◆ ◆ ◆

导言


人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。

而现在,随着计算能力、语言处理和文本数字化三种技术方面的改善,以文字“大数据”来研究某种文化成为了可能。


正如美国作家库尔特·冯内古特(Kurt Vonnegut)曾经说过的那样:“这些故事都有着美丽而方便计算的格式,没有理由说我们不能把它们套进计算机的算法里去。”

7.2_.jpg

图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线

(注:整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析:Hedonometer / Andy Reagan / Kirsch)


伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。


这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据,并由此解开了讲故事之所以能够吸引人们的本质特征。




◆ ◆ ◆

实验展示

 
科学家收集了1327本书作为样本,这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事(P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的)。为了生成样本书的情感线,研究者将文本分为了一个个10000的小块,并分析每个小块里的所表达的感情。(如图2所示)

7.3_.jpg

图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。

 

六种基本故事线形态分别为:

1.“白手起家”(故事线主要特征形态为:上升)

2.“悲剧”或“凤凰变麻雀”(故事线主要特征形态为:下降)

3.“陷入困境的人”(故事线主要特征形态为:先降后升)

4.“伊卡洛斯” (故事线主要特征形态为:先升后降)(P.S.希腊神话中代达罗斯的儿子。在用蜡和羽毛做的翅膀逃离克里特岛时,因飞得太高,双翼上的蜡遭太阳融化跌落水中丧生,被埋葬在一个海岛上。)

5.“灰姑娘”(故事线主要特征形态为:先升后降再升)

6.“俄狄浦斯”(故事线主要特征形态为:先降后升再降)(P.S. 俄狄浦斯是外国文学史上典型的命运悲剧人物。他在不知情的情况下,杀死了自己的父亲并娶了自己的母亲。)

7.4_.jpg

图3 六种基本故事线的形态展示
(注:从左至右从上到下依次为:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析:Reagan et. al/ University of Vermont)





◆ ◆ ◆

结论

当研究团队确定了六种基本的情感故事线之后,又进一步观察了情感线与其故事下载量之间的关系,并据此探索最受欢迎的情感故事线类型。最终的研究结果显示,最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。


另外,把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上,研究结果显示,最受欢迎的故事往往是连续两次出现“陷入困境的人”的,还有“灰姑娘”紧接一个“悲剧”的故事。
 
 
 
来源:大数据文摘
 
智造家提供
 
758 浏览

要做好数据分析 明晰指标和维度的概念是关键

设计类 泰迪的礼物 2016-07-19 11:21 发表了文章 来自相关话题

指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。






要做好数据分析 明晰指标和维度的概念是关键

1、指标

指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。很多公司都有自己的KPI指标体系,就是通过几个关键指标来衡量公司业务运营情况的好坏。

指标需要经过加和、平均等汇总计算方式得到,并且是需要在一定的前提条件进行汇总计算,如时间、地点、范围,也就是我们常说的统计口径与范围。

指标可以分为绝对数指标和相对数指标,绝对数指标反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数指标主要用来反映质量好坏的指标,如利润率、留存率、覆盖率等。我们分析一个事物发展程度就可以从数量跟质量两个角度入手分析,以全面衡量事物发展程度。

刚才说过,指标用于衡量事物发展程度,那这个程度是好还是坏,这就需要通过不同维度来对比,才能知道是好还是坏。

2、维度

维度:是事物或现象的某种特征,如性别、地区、时间等都是维度。其中时间是一种常用、特殊的维度,通过时间前后的对比,就可以知道事物的发展是好了还是坏了,如用户数环比上月增长10%、同比去年同期增长20%,这就是时间上的对比,也称为纵比;

另一个比较就是横比,如不同国家人口数、GDP的比较,不同省份收入、用户数的比较、不同公司、不同部门之间的比较,这些都是同级单位之间的比较,简称横比;

维度可以分为定性维度跟定量维度,也就是根据数据类型来划分,数据类型为字符型(文本型)数据,就是定性维度,如地区、性别都是定性维度;数据类型为数值型数据的,就为定量维度,如收入、年龄、消费等,一般我们对定量维度需要做数值分组处理,也就是数值型数据离散化,这样做的目的是为了使规律更加明显,因为分组越细,规律就越不明显,最后细到成最原始的流水数据,那就无规律可循。

最后强调一点,只有通过事物发展的数量、质量两大方面,从横比、纵比角度进行全方位的比较,我们才能够全面的了解事物发展的好坏。

进一步拓展思考,我理解为指标拆分和维度对比

其实在实际产品数据分析的过程中也可参照以上思想。

通过大量的数据分析软件工具应用可以发现,主要包括以下内容:

·整体情况的分析和汇总:全局数据的概况、变化趋势、占比等

·多个维度的分析:如果是日志数据,已经存在多个数据项,以某一个数据项作为主关键词汇总分析,同比、环比变化,占总数的变化。如果没有日志数据,则需要想清楚解决这个问题原因是什么?需要采集哪些数据项?

·重要场景问题的分析:根据分析的重要问题、用户关心的问题进行分析

·软硬件性能管理、告警管理、报表管理、基础参数配置和用户管理等等

在多维度分析、告警、报表,数据图表可视化设计呈现方面也存在许多共性,总结如下:

1.数据的呈现方式是表格还是图表?若是时间范围,时间统计粒度是多少?

2.表格需要呈现哪些数据?数据的单位?保留几位小数?数据计算的方法?排序依据?

3.图表采用哪一种?呈现的范围是多少?

4.常见的数据项操作:新增、删除、修改、查询

·新增哪些是必填数据项?校验重复性和有效性?

·删除是否需要提醒?是否具有权限删除?

·修改可修改的数据项有哪些?修改后是否要进行校验有效性和重复项?是否有修改的权限?

·查询是精准查询还是模糊查询?是单一查询还是支持批量查询?批量查询输入方式的讲究?查询的内容输入什么是否支持大小写空格等?数据区间的查询是自定义还是给出范围划分?

人们总认为与大数据分析沾点边的技术都要花大价钱才能得到。但事实上,大数据分析的思想才是最贵的,技术可以实现数据批量清洗,处理,呈现地更快、更美。但却不知道要哪些数据算有效,哪些数据才是重点需要分析得出有价值的信息。
 
来源:网络 查看全部
指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。

636044377630131507838.jpg


要做好数据分析 明晰指标和维度的概念是关键

1、指标

指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。很多公司都有自己的KPI指标体系,就是通过几个关键指标来衡量公司业务运营情况的好坏。

指标需要经过加和、平均等汇总计算方式得到,并且是需要在一定的前提条件进行汇总计算,如时间、地点、范围,也就是我们常说的统计口径与范围。

指标可以分为绝对数指标和相对数指标,绝对数指标反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数指标主要用来反映质量好坏的指标,如利润率、留存率、覆盖率等。我们分析一个事物发展程度就可以从数量跟质量两个角度入手分析,以全面衡量事物发展程度。

刚才说过,指标用于衡量事物发展程度,那这个程度是好还是坏,这就需要通过不同维度来对比,才能知道是好还是坏。

2、维度

维度:是事物或现象的某种特征,如性别、地区、时间等都是维度。其中时间是一种常用、特殊的维度,通过时间前后的对比,就可以知道事物的发展是好了还是坏了,如用户数环比上月增长10%、同比去年同期增长20%,这就是时间上的对比,也称为纵比;

另一个比较就是横比,如不同国家人口数、GDP的比较,不同省份收入、用户数的比较、不同公司、不同部门之间的比较,这些都是同级单位之间的比较,简称横比;

维度可以分为定性维度跟定量维度,也就是根据数据类型来划分,数据类型为字符型(文本型)数据,就是定性维度,如地区、性别都是定性维度;数据类型为数值型数据的,就为定量维度,如收入、年龄、消费等,一般我们对定量维度需要做数值分组处理,也就是数值型数据离散化,这样做的目的是为了使规律更加明显,因为分组越细,规律就越不明显,最后细到成最原始的流水数据,那就无规律可循。

最后强调一点,只有通过事物发展的数量、质量两大方面,从横比、纵比角度进行全方位的比较,我们才能够全面的了解事物发展的好坏。

进一步拓展思考,我理解为指标拆分和维度对比

其实在实际产品数据分析的过程中也可参照以上思想。

通过大量的数据分析软件工具应用可以发现,主要包括以下内容:

·整体情况的分析和汇总:全局数据的概况、变化趋势、占比等

·多个维度的分析:如果是日志数据,已经存在多个数据项,以某一个数据项作为主关键词汇总分析,同比、环比变化,占总数的变化。如果没有日志数据,则需要想清楚解决这个问题原因是什么?需要采集哪些数据项?

·重要场景问题的分析:根据分析的重要问题、用户关心的问题进行分析

·软硬件性能管理、告警管理、报表管理、基础参数配置和用户管理等等

在多维度分析、告警、报表,数据图表可视化设计呈现方面也存在许多共性,总结如下:

1.数据的呈现方式是表格还是图表?若是时间范围,时间统计粒度是多少?

2.表格需要呈现哪些数据?数据的单位?保留几位小数?数据计算的方法?排序依据?

3.图表采用哪一种?呈现的范围是多少?

4.常见的数据项操作:新增、删除、修改、查询

·新增哪些是必填数据项?校验重复性和有效性?

·删除是否需要提醒?是否具有权限删除?

·修改可修改的数据项有哪些?修改后是否要进行校验有效性和重复项?是否有修改的权限?

·查询是精准查询还是模糊查询?是单一查询还是支持批量查询?批量查询输入方式的讲究?查询的内容输入什么是否支持大小写空格等?数据区间的查询是自定义还是给出范围划分?

人们总认为与大数据分析沾点边的技术都要花大价钱才能得到。但事实上,大数据分析的思想才是最贵的,技术可以实现数据批量清洗,处理,呈现地更快、更美。但却不知道要哪些数据算有效,哪些数据才是重点需要分析得出有价值的信息。
 
来源:网络