本月累计签到次数:

今天获取 积分

云技术

云技术

507 浏览

云计算竞争态势悄然转变:从跑马圈地到深耕细作!

IT软件类 天黑请闭眼 2017-02-21 15:54 发表了文章 来自相关话题

摘要:云计算市场的竞争态势已经在悄然转变:回顾2016年的云计算市场,我们不仅看到了云计算厂商在收割季的满满收获,同样也看到了不同的云计算厂商其实也在各自找寻属于自己的位置。
     





     从IaaS到PaaS再到SaaS,云计算的产业链足够长;从金融到电信再到传统制造,云计算所应用的行业日益广泛;从开源到超融合再到安全,云计算的技术更新也在逐步进行……一切的一切都在让这个庞大的市场变得更加细分。同时,云计算也提出了一个新的命题:不同的云计算厂商如何在找到自己位置的同时,更好地处理复杂的竞合关系。
      这很大程度上得益于云计算市场的全面爆发,各大云计算厂商在坐收行业发展红利的同时,也在积极挖掘自己所擅长领域的商机,这也将进一步推动云计算市场走向成熟。
     
     云计算阵营的划分可谓由来已久,过去的区分主要从传统IT巨头、互联网巨头、电信运营商等层面去分,或者从IaaS、PaaS和SaaS领域去分,如今,这一阵营正在变得更加细分。比如,华为、浪潮等更加专注于设备层和IaaS层,他们拥有庞大的服务器、存储等产品线,同时,他们又基于这一庞大的产品线构建起IaaS,为企业提供私有云服务。
     相比较华为、浪潮等IT巨头,阿里云、腾讯云等更加专注于IaaS层面的公有云服务,有趣的是,腾讯云从去年开始就与阿里云展开贴身肉搏,几乎是阿里云做什么,腾讯云马上跟上,两者在公有云领域的竞争很大程度上也使得这一市场硝烟四起。其他如小米、乐视、网易等云计算企业同样也在各自所擅长的领域不断深耕。
       总而言之,从2016年至今,各大云计算厂商不再像过去那样云里雾里,而是更加务实,尽可能发挥自己的优势,在庞大的云计算市场中分得属于自己的那一杯羹。首先,他们意识到云计算市场足够大,只要做好自己的那一块,不愁没有市场;其次,他们也看到云计算市场虽然很大,但不是哪一家企业能够一统天下的,与其贪大求全,不如踏踏实实从最擅长的入手。
      由于近两年来互联网+的持续推进,云计算作为互联网应用发展的基础设施,已经在众多行业得到广泛应用。除了传统的游戏、电商、移动、社交等在内的互联网行业外,云计算在制造、政府、金融、交通、医疗健康等传统行业的应用也日渐深入。
       以阿里云为例,包括中国联通、诸如中石油、中石化、海关总署、徐工集团、中国气象局、华大基因等在内的国家机关和相关企业单位,都已经成为其重要客户。这对于国内云服务市场的发展,无疑是重大利好;过去,公有云的应用主要在一些中小企业集中的行业,对于能源、金融等大行业的核心应用,云计算一直处在边缘状态。
       不仅如此,在不同行业,也产生了一批针对行业个性化需求的专业云计算企业,他们更多立足自身在行业经验上的积累,通过与云计算巨头的合作,推动云计算在各个细分行业的落地应用。
       过去,在技术流派眼中,云计算主要是IaaS、PaaS和SaaS,但从2016年开始,技术流们开始专注于更加细分的技术创新,以提升云计算技术发展的成熟度。全闪存、CDN、超融合、OpenStack、容器……一个又一个新兴技术领域不断崛起。
       应该说,这些技术都已经发展数年,但在云计算市场没有全面爆发之前,这些技术的威力并没有完全体现出来;技术的发展得益于市场应用的催化,同时技术又在一定程度上推动了市场应用的普及,云计算也不例外。
        云计算市场的分工正在变得越来越细,但几乎所有的云计算厂商又毫不例外地指向同一个目标:让计算资源像水、电一样可以随取随用。因此,云计算市场虽然更加细分,但各个厂商早已不再是单打独斗或者说特立独行,探寻各自的边界以及寻求彼此的竞争和合作正在成为行业的主旋律。
        在新兴的云计算生态中,不管是硬件产品服务商还是细分技术领域的大牛,抑或是拥有丰富行业应用经验的企业,他们都在努力营造一个共同的云计算生态,并在这样一个生态圈中各司其职,在彼此竞争的边界外寻求更为广泛的合作。
                                                           -----------------来源网络-------------------- 查看全部
摘要:云计算市场的竞争态势已经在悄然转变:回顾2016年的云计算市场,我们不仅看到了云计算厂商在收割季的满满收获,同样也看到了不同的云计算厂商其实也在各自找寻属于自己的位置。
     
云计算.jpg


     从IaaS到PaaS再到SaaS,云计算的产业链足够长;从金融到电信再到传统制造,云计算所应用的行业日益广泛;从开源到超融合再到安全,云计算的技术更新也在逐步进行……一切的一切都在让这个庞大的市场变得更加细分。同时,云计算也提出了一个新的命题:不同的云计算厂商如何在找到自己位置的同时,更好地处理复杂的竞合关系。
      这很大程度上得益于云计算市场的全面爆发,各大云计算厂商在坐收行业发展红利的同时,也在积极挖掘自己所擅长领域的商机,这也将进一步推动云计算市场走向成熟。
     
     云计算阵营的划分可谓由来已久,过去的区分主要从传统IT巨头、互联网巨头、电信运营商等层面去分,或者从IaaS、PaaS和SaaS领域去分,如今,这一阵营正在变得更加细分。比如,华为、浪潮等更加专注于设备层和IaaS层,他们拥有庞大的服务器、存储等产品线,同时,他们又基于这一庞大的产品线构建起IaaS,为企业提供私有云服务。
     相比较华为、浪潮等IT巨头,阿里云、腾讯云等更加专注于IaaS层面的公有云服务,有趣的是,腾讯云从去年开始就与阿里云展开贴身肉搏,几乎是阿里云做什么,腾讯云马上跟上,两者在公有云领域的竞争很大程度上也使得这一市场硝烟四起。其他如小米、乐视、网易等云计算企业同样也在各自所擅长的领域不断深耕。
       总而言之,从2016年至今,各大云计算厂商不再像过去那样云里雾里,而是更加务实,尽可能发挥自己的优势,在庞大的云计算市场中分得属于自己的那一杯羹。首先,他们意识到云计算市场足够大,只要做好自己的那一块,不愁没有市场;其次,他们也看到云计算市场虽然很大,但不是哪一家企业能够一统天下的,与其贪大求全,不如踏踏实实从最擅长的入手。
      由于近两年来互联网+的持续推进,云计算作为互联网应用发展的基础设施,已经在众多行业得到广泛应用。除了传统的游戏、电商、移动、社交等在内的互联网行业外,云计算在制造、政府、金融、交通、医疗健康等传统行业的应用也日渐深入。
       以阿里云为例,包括中国联通、诸如中石油、中石化、海关总署、徐工集团、中国气象局、华大基因等在内的国家机关和相关企业单位,都已经成为其重要客户。这对于国内云服务市场的发展,无疑是重大利好;过去,公有云的应用主要在一些中小企业集中的行业,对于能源、金融等大行业的核心应用,云计算一直处在边缘状态。
       不仅如此,在不同行业,也产生了一批针对行业个性化需求的专业云计算企业,他们更多立足自身在行业经验上的积累,通过与云计算巨头的合作,推动云计算在各个细分行业的落地应用。
       过去,在技术流派眼中,云计算主要是IaaS、PaaS和SaaS,但从2016年开始,技术流们开始专注于更加细分的技术创新,以提升云计算技术发展的成熟度。全闪存、CDN、超融合、OpenStack、容器……一个又一个新兴技术领域不断崛起。
       应该说,这些技术都已经发展数年,但在云计算市场没有全面爆发之前,这些技术的威力并没有完全体现出来;技术的发展得益于市场应用的催化,同时技术又在一定程度上推动了市场应用的普及,云计算也不例外。
        云计算市场的分工正在变得越来越细,但几乎所有的云计算厂商又毫不例外地指向同一个目标:让计算资源像水、电一样可以随取随用。因此,云计算市场虽然更加细分,但各个厂商早已不再是单打独斗或者说特立独行,探寻各自的边界以及寻求彼此的竞争和合作正在成为行业的主旋律。
        在新兴的云计算生态中,不管是硬件产品服务商还是细分技术领域的大牛,抑或是拥有丰富行业应用经验的企业,他们都在努力营造一个共同的云计算生态,并在这样一个生态圈中各司其职,在彼此竞争的边界外寻求更为广泛的合作。
                                                           -----------------来源网络--------------------
488 浏览

“云管端”集合发力 生态闭环促进开启物联网盛宴(附报告)

智能制造类 品管人生 2016-10-18 10:19 发表了文章 来自相关话题

 
物联网从提出到现在已有近20 年历史。近二十年中,物联网领域出现了翻天覆地的变化,智能穿戴、智能家居、工业物联网等概念已走向现实。
 
然而物联网多年的发展似乎将更多的关注点放在了终端侧,而终端侧各类技术也限制了物联网的发展。物联网的第一个模式——电子标签仅能承载KB 级别的数据量,而且并没有有源射频的支持,仅能通过NFC 等方式支持近场通信。Google Glasses 等先驱产品由于没有解决3L 问题(长时间、长距离、低价格),虽然启发了物联网的网络连接形式,却不能大量铺开。
 
另外,早期物联网的“云管”方面并未受到重视,“管”的缺失导致物联网没有标准的传输协议,全国范围的远距离数据传输通过2G、4G 网络实现,不能实现大规模连接。“云”的缺失导致物联网为了连接而连接,并不能提高生产效率,也难以抓住消费者痛点。
 
我们认为,作为一个综合性的网络,物联网的最终爆发绝不仅仅限于终端侧,“云管端”的集合发力,生态闭环才是物联网正确的解读方式。
 
以下为报告全文:
[login] 























































































































































































































 
[/login]
 
 

来源 中信建投 199IT互联网数据中心
智造家提供 查看全部
 
物联网从提出到现在已有近20 年历史。近二十年中,物联网领域出现了翻天覆地的变化,智能穿戴、智能家居、工业物联网等概念已走向现实。
 
然而物联网多年的发展似乎将更多的关注点放在了终端侧,而终端侧各类技术也限制了物联网的发展。物联网的第一个模式——电子标签仅能承载KB 级别的数据量,而且并没有有源射频的支持,仅能通过NFC 等方式支持近场通信。Google Glasses 等先驱产品由于没有解决3L 问题(长时间、长距离、低价格),虽然启发了物联网的网络连接形式,却不能大量铺开。
 
另外,早期物联网的“云管”方面并未受到重视,“管”的缺失导致物联网没有标准的传输协议,全国范围的远距离数据传输通过2G、4G 网络实现,不能实现大规模连接。“云”的缺失导致物联网为了连接而连接,并不能提高生产效率,也难以抓住消费者痛点。
 
我们认为,作为一个综合性的网络,物联网的最终爆发绝不仅仅限于终端侧,“云管端”的集合发力,生态闭环才是物联网正确的解读方式。
 
以下为报告全文:
[login] 

1.2_.jpg


1.3_.jpg


1.4_.jpg


1.5_.jpg


1.6_.jpg


1.7_.jpg


1.8_.jpg


1.9_.jpg


1.10_.jpg


1.11_.jpg


1.12_.jpg


1.13_.jpg


1.14_.jpg


1.15_.jpg


1.16_.jpg


1.17_.jpg


1.18_.jpg


1.19_.jpg


1.20_.jpg


1.21_.jpg


1.22_.jpg


1.23_.jpg


1.24_.jpg


1.25_.jpg


1.26_.jpg


1.27_.jpg


1.28_.jpg


1.29_.jpg


1.30_.jpg


1.31_.jpg


1.32_.jpg


1.33_.jpg


1.34_.jpg


1.35_.jpg


1.36_.jpg


1.37_.jpg


1.38_.jpg


1.39_.jpg


1.40_.jpg


1.41_.jpg


1.42_.jpg


1.43_.jpg


1.44_.jpg

 
[/login]
 
 

来源 中信建投 199IT互联网数据中心
智造家提供
1 回答

云盘进行云存储安全备份有什么好处?

机械自动化类 土豆泥 2016-06-07 17:21 回复了问题 • 2 人关注 来自相关话题

671 浏览

工业云计算在中国的发展与趋势

机械自动化类 乌龟大师 2016-06-01 16:46 发表了文章 来自相关话题

   云计算、大数据将成为未来10年乃至更长时间新一代信息技术和产业的关键和核心,其和移动互联网、物联网等其他新一代信息技术一起正驱动互联网向传统工业制造业渗透,推动互联网企业和传统工业企业融合发展,并作为现代服务业的有机组成部分,不断与新业务形态、新商业模式互动融合,催生新产品、新技术、新模式。未来,产业中各行业边界将逐渐模糊,全新的工业经济发展模式正在到来。
工业云催生工业经济新业态
云计算、大数据、物联网等技术的集成应用,推动了新型制造模式的产生与发展,也进一步加速了工业企业销售模式的变革,催生了社交营销、O2O(Online to Offline)、智能物流、互联网金融、移动电子商务等生产性互联网新兴服务业态,是推动区域产业结构优化调整的重要引擎。
工业云通常指基于云计算架构的工业云平台和基于工业云平台提供的工业云服务,涉及产品研发设计、实验和仿真、工程计算、工艺设计、加工制造及运营管理等诸多环节。工业云服务常见的方式有工业SaaS(Software as a Service)云服务、工业IaaS(Infrastructure as a Service)云服务、工业PaaS(Platform as a Service)云服务等方式。工业云基于云计算技术架构,使工业设计和制造、生产运营管理等工具大众化、简洁化、透明化,通过工业云计算服务,可大幅提升工业企业全要素劳动生产率。
基于工业云服务,用户一方面可以获得云化的工业设计、加工工艺分析、装配工艺分析、模具设计、机械零部件设计与性能分析、电磁场模拟等服务,从而大幅缩短产品升级换代周期、降低设计与制造成本、提高产品性能;另一方面,工业企业的订单管理、主生产计划、备料等诸多环节均可依托工业云平台的ERP(企业资源计划)、DMS(经销商管理系统)、PLM(产品生命周期管理)等企业管理工具来提升管理效能;同时,用户也可基于工业云服务平台对生产设计、企业经营管理及用户交互中各种数据进行充分挖掘,利用大数据为企业研发、生产、营销、交易、服务等活动提供服务。
工业与互联网融合旨在加速工业转型升级和提质增效,变革传统工业生产运营方式,创造出更大的价值,这就需要以云计算、大数据辅助工业企业创新其研发、生产、运营、营销、服务和管理方式。当前,基于云计算平台的工业设计、虚拟装配、精准营销配送、精准广告推送等模式已成为企业发展的新趋势,可以说,工业云计算服务、工业大数据服务已成为推动互联网与工业融合发展的主要支撑手段,并与企业技术研发、流程管理以及生产经营等方面紧密融合,塑造企业发展新模式、催生工业经济新业态。
全国各地积极建设工业云计算平台
2009年9月,北京市计算中心开始工业云实践,打造工业云计算服务平台(http://www.industrycloud.com.cn),基于其200万亿次高性能工业云计算服务平台,能够以SaaS云服务方式提供CAD(计算机辅助设计)、CAM(计算机辅助制造)、CAPP(计算机辅助工艺设计)、CAE(计算机辅助工程设计)、PLM(产品全生命周期管理)等所需要的工具和管理软件服务,还能够为中小企业提供丰富的设计制造资源和3D打印等工程服务,截止到2015年,该平台已经服务近十万户,广泛应用于工业设计、虚拟制造、动漫渲染等诸多领域。
2013年以来,国家出台了一系列政策鼓励工业云的发展,《国务院关于积极推进“互联网+”行动的指导意见》、《国务院关于大力推进大众创业万众创新若干政策措施的意见》、《中国制造2025》、《信息化和工业化深度融合专项行动计划(2013-2018年)》等文件均把推动工业云的发展作为推动两化深度融合和“互联网+”的重要抓手。2013年,工业和信息化部确定北京、天津、河北、内蒙、黑龙江、上海、江苏、浙江、山东、河南、湖北、广东、重庆、贵州、青海、宁夏等16个省市开展首批工业云创新服务试点,基于互联网、云计算、物联网、大数据等新一代信息技术,建设工业云服务平台,聚集和共享制造资源和创新资源,推进制造需求和社会化制造资源的高质高效对接,探索制造业领域的共享经济新模式。
在上述工业云创新服务试点中,天津市主要依托天津超算中心建立了天津滨海工业云平台(http://www.tjbh-icloud.cn);内蒙古采用“1+N+N”服务模式(即一个平台、多种应用服务、多种专业资源服务)打造包头两化融合暨工业云创新服务平台(http://www.btlhrhpt.com);黑龙江工业云平台(http://www.hljgyy.com)包括工业云设计、工业云存储等应用;河南工业云平台(http://www.gyyhn.com)主要由设计云、服务云、管理云组成;山东工业云创新服务平台(http://www.ind-cloud.com)依托山东超算中心,主要提供设计云、管理云、商务云、物联服务云、知识云及数据云等服务;江苏工业云平台(http://www.gyycloud.com)主要提供面向汽车行业的数字化设计仿真等云服务;上海工业云公共服务平台(http://www.shicloud.org)面向钢铁、汽车、民用航空、机电设备四大重点产业和研发、管理、设备、能源、物流、商务等六大重点领域,为企业提供SaaS云、IaaS云服务;广东工业云平台(http://www.gdcloud.org)主要提供政务云、云桌面、工业软件云、培训云、检测云、电商云等云计算服务;重庆工业云平台(http://cq.caxa.com)包括工业设计云、企业采购云和工业金融云等三大云服务平台。
据不完全统计,16个工业云平台注册用户数超过1500万,企业用户数超过20万,提供软件工具和软件服务超过3000个,模型、图纸、手册等技术资源超过4万个,培训视频超过7500部。上述工业云平台在驱动当地工业经济发展中均发挥了重要作用,以贵州工业云(http://gz-icloud.com.cn)为例,贵州工业云提供260个云应用,服务企业用户达15998家,基于工业云服务,2015年实现重点行业数字化研发设计工具普及率达到40.5%,比2014年提高4.8个百分点,传统企业电商覆盖率达到35.3%,比2014年提高5个百分点。预期2016年,在贵州工业云的推动下,重点行业数字化研发设计工具普及率将达到45%以上,传统工业企业电商化覆盖率将达到40%以上。
当前各地工业云计算平台的建设和发展,从总体来看,对推动区域经济体产业发展起到积极的效果,取得不错的成绩,但也存在若干问题,主要有以下几个方面:从平台建设来看,大部分工业云平台的建设没有和区域经济体资源禀赋以及主导产业优势相结合,部分区域在建设工业云服务平台中也没有结合当地已有的公共计算服务平台资源,造成重复投资、资源闲置等问题;从平台服务来看,大部分工业云平台以提供工业SaaS云服务为主,存在服务内容同质化、服务标准不统一、用户数据安全保障不到位等问题,同时工业云服务也没有和工业大数据服务融合起来;从商业模式来看,当前大部分工业云平台的运营主要以政府投资为主,面临盈利困难等运营压力,如何进一步加大工业云平台的推广和使用,创新商业模式,引入成熟的市场化发展机制,让更多的用户能透明化访问和使用工业云计算平台,值得深入探索。
推动工业云下一步发展
结合前期工业云计算服务创新试点的实践,需从如下几个方面进一步促进工业云计算平台的发展:
大力开发大规模工业应用软件,发展工业PaaS云应用
当前全国各地建设的工业云计算服务平台,大多数以提供SaaS工业云服务为主,但目前大部分大规模工业应用软件并不支持云计算架构。在科学与工程计算领域,软件市场长期完全由国外软件垄断,版权费用非常昂贵,且并行规模还受限制,这些工业应用软件大多发展于半个世纪前,软件框架未能考虑现在及未来的超大规模计算需求,特别是前处理部分,已被证明是阻碍大规模计算发展的严重瓶颈。构建工业云计算服务平台迫切需要高水平的自主开发的面向云计算体系架构的大规模并行应用软件。
当前大部分工业PaaS云服务和商业模式还处于摸索阶段,还存在很多缺陷和不足,而恰恰PaaS对提升传统产业的创新能力意义深远,因为当前制约传统产业创新能力的很大一方面就是缺少必要的创新工具、创新平台以及专业的创新团队,云计算中心以透明化方式提供行业应用PaaS服务将有效解决这一问题,尤其在传统制造业方面,但传统制造业的PaaS平台研制还面临诸多问题,如制造行业的细分问题,制造业非常庞大,如何选择细分的制造领域入手?如何提供透明化的PaaS API接口供制造业用户调用?这些都是问题,解决了这些问题,云计算对产业的拉动和潜力才能完全得到释放。工业云在未来的发展中,需更多地以建设工业PaaS云服务平台为主,包括建设面向工艺和面向行业的PaaS云,如磨削云、切削云、焊接云、精加工云、服装云等。
工业云和工业大数据需进一步融合发展
工业云旨在解决中小型工业企业在提升创新能力时往往要面临的工业计算软件及平台搭建、计算机建模和仿真、高端研发人员的培养等诸多问题,基于工业云服务,工业用户可进行快速有效的仿真模拟,降低设计与制造成本、提高原料的利用率、从而大幅缩短企业产品升级换代周期、提高产品性能、提升企业信息化能力、大幅提升工业企业的自主创新效率,并推动企业核心竞争优势的提升。
工业大数据基于云计算、物联网、移动互联网、海量数据挖掘等新一代信息技术推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,并与智能机床、机器人、3D打印等技术结合,推动了柔性制造、智能制造和网络制造的发展;工业大数据与智能物流、电子商务的联动,也进一步加速了工业企业销售模式的变革,如精准营销配送、精准广告推送等。
工业云和工业大数据均以辅助工业企业创新其研发、生产、运营、服务和管理方式推动互联网与工业融合发展,成为当前经济新常态下,加速工业转型升级和提质增效的重要手段。工业云和工业大数据,二者你中有我,我中有你,均基于工业云计算服务平台进行海量数据的存储、数据挖掘和可视化呈现,工业云是工业大数据的平台和支撑手段,工业大数据则拓展了工业云的服务范畴,二者未来将进一步融合发展,推动互联网由以服务个人用户消费为主向服务生产性应用为主,由此导致产业模式、制造模式和商业模式的重塑。
工业云(大数据)建设需进一步结合区域资源禀赋和主导产业特征
当前,工业云(大数据)应用服务的供给和需求存在阶段性结构性矛盾。一方面工业云计算服务、工业大数据服务有着广泛的需求;另一方面,部分工业云(大数据)服务平台却存在用户不足、资源闲置等情况。以上问题产生的原因主要有两点,一是当前大部分工业云服务同质化严重,大部分工业云平台缺乏与当地主导产业紧密耦合的服务设计,接地气不足;二是工业云作为相关技术、平台和交易模式的集成创新,其发展受制于商业模式的简洁性、效益的可预期性。当前已建成的工业云平台其安全性、服务的易获得性都有很大的提升空间,大部分还是政府资助在运营,需尽快走出一条商业化运营的可行模式。
在未来的工业云建设运营中,需进一步紧密结合区域经济体的资源禀赋和主导产业特征,要结合区域产业的集群性、产业的比较优势和产业的关联优势,因地制宜地建设工业云平台、设计工业云服务,只有这样,才能让工业云成为推动当地工业经济发展的“润滑剂”和“催化剂”。
依托大规模超算中心,构建区域工业云(大数据)创新服务中心
工业云的发展最终将采取“垂直工业云服务”模式,采用“大规模计算平台+大规模工业设备+领域专家团队+主导产业创新服务”的垂直创新模式,基于区域经济体资源禀赋和产业优势建立区域级工业云服务平台(也即工业云创新服务中心)。从美国等发达国家来看,依托云计算等新一代信息技术,建设先进制造创新中心并形成国家制造业创新网络,也是美国先进制造战略的重大举措。区域级工业云创新服务中心将成为未来区域经济体新技术的主要供给者、产业发展的重要催化剂。通过工业云创新服务中心,可进一步提升区域经济体主导产业的核心竞争力,并通过其渗透和扩散性,培育新经济增长点。
在建设区域工业云创新服务中心时,要依托大规模超级计算中心打造工业云(大数据)平台。超算中心是为工业、商业、政府决策支持等领域的计算密集型应用和数据密集型应用提供快速、精确处理能力的数据平台,与云计算中心相比,其服务的本质都是提供计算服务能力和数据处理服务能力。千万亿次以下的超算中心在我国已建成很多,在2015年11月发布的中国最快性能超级计算机TOP100排行榜上,入榜的超级计算机每秒浮点运算性能全部超过300万亿次。2015年11月发布的全球最快性能超级计算机TOP500排行榜中,全球21.8%的最快性能超级计算机(共109台)安装在中国,居世界第二。当前我国拥有千万亿次以上计算能力的超算中心有10家以上,如:广州超算中心、天津超算中心、深圳超算中心、济南超算中心、长沙超算中心等等。预期到2017年我国将有15家以上千万亿次规模的超级计算中心。虽然广州超算中心的“天河2号”超级计算机在去年11月发布的全球最快性能超级计算机TOP500排行榜上以每秒33.86千万亿次的浮点运算速度第六次夺冠,但我国超级计算的发展依然面临缺乏统一的规划和功能定位、交叉领域的专业技术团队严重缺失、行业应用软件依赖国外严重、超级计算机应用效率低下等问题。如何规划和高效利用大规模超算中心,让其渗透和扩散到行业创新的方方面面,是当前需高度重视的问题。
随着虚拟化技术的发展、通信延迟的降低以及高性能计算应用类型和需求的多样性、广泛性,高性能计算云(High-performance Computing Cloud)以其较小的性能开销、灵活自主的管理服务模式逐渐成为超级计算的主流服务模式。以云计算的理念运营超级计算中心是一个重要的发展趋势。2015年10月,美国发布《美国创新战略》,该战略明确提出需保持美国在高性能计算领域的领先地位,政府机构将与计算机生产商和云供应商合作,令高性能计算资源更容易为人们所获得。在工业云未来的发展中,需进一步依托大规模超级计算中心建设区域工业云(大数据)创新服务中心,一方面,能基于云计算方式有效整合当前闲置的大规模超级计算中心资源;另一方面,也能够提供工业应用重大工程问题求解能力和大规模海量数据挖掘能力的支撑,并能承载培养和储备跨学科交叉领域高端专业人才的重任。
产业结构的调整优化和经济效率的提升是当下推动我国经济发展的本质。工业云和工业大数据,作为生产性服务业,其本质是基于技术创新,通过生产要素使用效率的提升来提高资源配置的效率,从而推动工业企业全要素生产率的提升,也即工业经济效率的提升。发展工业云(大数据)服务,是发展现代服务业,推动我国区域经济结构调整,提升我国产业结构高度的有效手段。
文章来源:网络
更多智道分享文章链接:http://bbs.imefuture.com/article/
  查看全部

   云计算、大数据将成为未来10年乃至更长时间新一代信息技术和产业的关键和核心,其和移动互联网、物联网等其他新一代信息技术一起正驱动互联网向传统工业制造业渗透,推动互联网企业和传统工业企业融合发展,并作为现代服务业的有机组成部分,不断与新业务形态、新商业模式互动融合,催生新产品、新技术、新模式。未来,产业中各行业边界将逐渐模糊,全新的工业经济发展模式正在到来。
工业云催生工业经济新业态
云计算、大数据、物联网等技术的集成应用,推动了新型制造模式的产生与发展,也进一步加速了工业企业销售模式的变革,催生了社交营销、O2O(Online to Offline)、智能物流、互联网金融、移动电子商务等生产性互联网新兴服务业态,是推动区域产业结构优化调整的重要引擎。
工业云通常指基于云计算架构的工业云平台和基于工业云平台提供的工业云服务,涉及产品研发设计、实验和仿真、工程计算、工艺设计、加工制造及运营管理等诸多环节。工业云服务常见的方式有工业SaaS(Software as a Service)云服务、工业IaaS(Infrastructure as a Service)云服务、工业PaaS(Platform as a Service)云服务等方式。工业云基于云计算技术架构,使工业设计和制造、生产运营管理等工具大众化、简洁化、透明化,通过工业云计算服务,可大幅提升工业企业全要素劳动生产率。
基于工业云服务,用户一方面可以获得云化的工业设计、加工工艺分析、装配工艺分析、模具设计、机械零部件设计与性能分析、电磁场模拟等服务,从而大幅缩短产品升级换代周期、降低设计与制造成本、提高产品性能;另一方面,工业企业的订单管理、主生产计划、备料等诸多环节均可依托工业云平台的ERP(企业资源计划)、DMS(经销商管理系统)、PLM(产品生命周期管理)等企业管理工具来提升管理效能;同时,用户也可基于工业云服务平台对生产设计、企业经营管理及用户交互中各种数据进行充分挖掘,利用大数据为企业研发、生产、营销、交易、服务等活动提供服务。
工业与互联网融合旨在加速工业转型升级和提质增效,变革传统工业生产运营方式,创造出更大的价值,这就需要以云计算、大数据辅助工业企业创新其研发、生产、运营、营销、服务和管理方式。当前,基于云计算平台的工业设计、虚拟装配、精准营销配送、精准广告推送等模式已成为企业发展的新趋势,可以说,工业云计算服务、工业大数据服务已成为推动互联网与工业融合发展的主要支撑手段,并与企业技术研发、流程管理以及生产经营等方面紧密融合,塑造企业发展新模式、催生工业经济新业态。
全国各地积极建设工业云计算平台
2009年9月,北京市计算中心开始工业云实践,打造工业云计算服务平台(http://www.industrycloud.com.cn),基于其200万亿次高性能工业云计算服务平台,能够以SaaS云服务方式提供CAD(计算机辅助设计)、CAM(计算机辅助制造)、CAPP(计算机辅助工艺设计)、CAE(计算机辅助工程设计)、PLM(产品全生命周期管理)等所需要的工具和管理软件服务,还能够为中小企业提供丰富的设计制造资源和3D打印等工程服务,截止到2015年,该平台已经服务近十万户,广泛应用于工业设计、虚拟制造、动漫渲染等诸多领域。
2013年以来,国家出台了一系列政策鼓励工业云的发展,《国务院关于积极推进“互联网+”行动的指导意见》、《国务院关于大力推进大众创业万众创新若干政策措施的意见》、《中国制造2025》、《信息化和工业化深度融合专项行动计划(2013-2018年)》等文件均把推动工业云的发展作为推动两化深度融合和“互联网+”的重要抓手。2013年,工业和信息化部确定北京、天津、河北、内蒙、黑龙江、上海、江苏、浙江、山东、河南、湖北、广东、重庆、贵州、青海、宁夏等16个省市开展首批工业云创新服务试点,基于互联网、云计算、物联网、大数据等新一代信息技术,建设工业云服务平台,聚集和共享制造资源和创新资源,推进制造需求和社会化制造资源的高质高效对接,探索制造业领域的共享经济新模式。
在上述工业云创新服务试点中,天津市主要依托天津超算中心建立了天津滨海工业云平台(http://www.tjbh-icloud.cn);内蒙古采用“1+N+N”服务模式(即一个平台、多种应用服务、多种专业资源服务)打造包头两化融合暨工业云创新服务平台(http://www.btlhrhpt.com);黑龙江工业云平台(http://www.hljgyy.com)包括工业云设计、工业云存储等应用;河南工业云平台(http://www.gyyhn.com)主要由设计云、服务云、管理云组成;山东工业云创新服务平台(http://www.ind-cloud.com)依托山东超算中心,主要提供设计云、管理云、商务云、物联服务云、知识云及数据云等服务;江苏工业云平台(http://www.gyycloud.com)主要提供面向汽车行业的数字化设计仿真等云服务;上海工业云公共服务平台(http://www.shicloud.org)面向钢铁、汽车、民用航空、机电设备四大重点产业和研发、管理、设备、能源、物流、商务等六大重点领域,为企业提供SaaS云、IaaS云服务;广东工业云平台(http://www.gdcloud.org)主要提供政务云、云桌面、工业软件云、培训云、检测云、电商云等云计算服务;重庆工业云平台(http://cq.caxa.com)包括工业设计云、企业采购云和工业金融云等三大云服务平台。
据不完全统计,16个工业云平台注册用户数超过1500万,企业用户数超过20万,提供软件工具和软件服务超过3000个,模型、图纸、手册等技术资源超过4万个,培训视频超过7500部。上述工业云平台在驱动当地工业经济发展中均发挥了重要作用,以贵州工业云(http://gz-icloud.com.cn)为例,贵州工业云提供260个云应用,服务企业用户达15998家,基于工业云服务,2015年实现重点行业数字化研发设计工具普及率达到40.5%,比2014年提高4.8个百分点,传统企业电商覆盖率达到35.3%,比2014年提高5个百分点。预期2016年,在贵州工业云的推动下,重点行业数字化研发设计工具普及率将达到45%以上,传统工业企业电商化覆盖率将达到40%以上。
当前各地工业云计算平台的建设和发展,从总体来看,对推动区域经济体产业发展起到积极的效果,取得不错的成绩,但也存在若干问题,主要有以下几个方面:从平台建设来看,大部分工业云平台的建设没有和区域经济体资源禀赋以及主导产业优势相结合,部分区域在建设工业云服务平台中也没有结合当地已有的公共计算服务平台资源,造成重复投资、资源闲置等问题;从平台服务来看,大部分工业云平台以提供工业SaaS云服务为主,存在服务内容同质化、服务标准不统一、用户数据安全保障不到位等问题,同时工业云服务也没有和工业大数据服务融合起来;从商业模式来看,当前大部分工业云平台的运营主要以政府投资为主,面临盈利困难等运营压力,如何进一步加大工业云平台的推广和使用,创新商业模式,引入成熟的市场化发展机制,让更多的用户能透明化访问和使用工业云计算平台,值得深入探索。
推动工业云下一步发展
结合前期工业云计算服务创新试点的实践,需从如下几个方面进一步促进工业云计算平台的发展:
大力开发大规模工业应用软件,发展工业PaaS云应用
当前全国各地建设的工业云计算服务平台,大多数以提供SaaS工业云服务为主,但目前大部分大规模工业应用软件并不支持云计算架构。在科学与工程计算领域,软件市场长期完全由国外软件垄断,版权费用非常昂贵,且并行规模还受限制,这些工业应用软件大多发展于半个世纪前,软件框架未能考虑现在及未来的超大规模计算需求,特别是前处理部分,已被证明是阻碍大规模计算发展的严重瓶颈。构建工业云计算服务平台迫切需要高水平的自主开发的面向云计算体系架构的大规模并行应用软件。
当前大部分工业PaaS云服务和商业模式还处于摸索阶段,还存在很多缺陷和不足,而恰恰PaaS对提升传统产业的创新能力意义深远,因为当前制约传统产业创新能力的很大一方面就是缺少必要的创新工具、创新平台以及专业的创新团队,云计算中心以透明化方式提供行业应用PaaS服务将有效解决这一问题,尤其在传统制造业方面,但传统制造业的PaaS平台研制还面临诸多问题,如制造行业的细分问题,制造业非常庞大,如何选择细分的制造领域入手?如何提供透明化的PaaS API接口供制造业用户调用?这些都是问题,解决了这些问题,云计算对产业的拉动和潜力才能完全得到释放。工业云在未来的发展中,需更多地以建设工业PaaS云服务平台为主,包括建设面向工艺和面向行业的PaaS云,如磨削云、切削云、焊接云、精加工云、服装云等。
工业云和工业大数据需进一步融合发展
工业云旨在解决中小型工业企业在提升创新能力时往往要面临的工业计算软件及平台搭建、计算机建模和仿真、高端研发人员的培养等诸多问题,基于工业云服务,工业用户可进行快速有效的仿真模拟,降低设计与制造成本、提高原料的利用率、从而大幅缩短企业产品升级换代周期、提高产品性能、提升企业信息化能力、大幅提升工业企业的自主创新效率,并推动企业核心竞争优势的提升。
工业大数据基于云计算、物联网、移动互联网、海量数据挖掘等新一代信息技术推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,并与智能机床、机器人、3D打印等技术结合,推动了柔性制造、智能制造和网络制造的发展;工业大数据与智能物流、电子商务的联动,也进一步加速了工业企业销售模式的变革,如精准营销配送、精准广告推送等。
工业云和工业大数据均以辅助工业企业创新其研发、生产、运营、服务和管理方式推动互联网与工业融合发展,成为当前经济新常态下,加速工业转型升级和提质增效的重要手段。工业云和工业大数据,二者你中有我,我中有你,均基于工业云计算服务平台进行海量数据的存储、数据挖掘和可视化呈现,工业云是工业大数据的平台和支撑手段,工业大数据则拓展了工业云的服务范畴,二者未来将进一步融合发展,推动互联网由以服务个人用户消费为主向服务生产性应用为主,由此导致产业模式、制造模式和商业模式的重塑。
工业云(大数据)建设需进一步结合区域资源禀赋和主导产业特征
当前,工业云(大数据)应用服务的供给和需求存在阶段性结构性矛盾。一方面工业云计算服务、工业大数据服务有着广泛的需求;另一方面,部分工业云(大数据)服务平台却存在用户不足、资源闲置等情况。以上问题产生的原因主要有两点,一是当前大部分工业云服务同质化严重,大部分工业云平台缺乏与当地主导产业紧密耦合的服务设计,接地气不足;二是工业云作为相关技术、平台和交易模式的集成创新,其发展受制于商业模式的简洁性、效益的可预期性。当前已建成的工业云平台其安全性、服务的易获得性都有很大的提升空间,大部分还是政府资助在运营,需尽快走出一条商业化运营的可行模式。
在未来的工业云建设运营中,需进一步紧密结合区域经济体的资源禀赋和主导产业特征,要结合区域产业的集群性、产业的比较优势和产业的关联优势,因地制宜地建设工业云平台、设计工业云服务,只有这样,才能让工业云成为推动当地工业经济发展的“润滑剂”和“催化剂”。
依托大规模超算中心,构建区域工业云(大数据)创新服务中心
工业云的发展最终将采取“垂直工业云服务”模式,采用“大规模计算平台+大规模工业设备+领域专家团队+主导产业创新服务”的垂直创新模式,基于区域经济体资源禀赋和产业优势建立区域级工业云服务平台(也即工业云创新服务中心)。从美国等发达国家来看,依托云计算等新一代信息技术,建设先进制造创新中心并形成国家制造业创新网络,也是美国先进制造战略的重大举措。区域级工业云创新服务中心将成为未来区域经济体新技术的主要供给者、产业发展的重要催化剂。通过工业云创新服务中心,可进一步提升区域经济体主导产业的核心竞争力,并通过其渗透和扩散性,培育新经济增长点。
在建设区域工业云创新服务中心时,要依托大规模超级计算中心打造工业云(大数据)平台。超算中心是为工业、商业、政府决策支持等领域的计算密集型应用和数据密集型应用提供快速、精确处理能力的数据平台,与云计算中心相比,其服务的本质都是提供计算服务能力和数据处理服务能力。千万亿次以下的超算中心在我国已建成很多,在2015年11月发布的中国最快性能超级计算机TOP100排行榜上,入榜的超级计算机每秒浮点运算性能全部超过300万亿次。2015年11月发布的全球最快性能超级计算机TOP500排行榜中,全球21.8%的最快性能超级计算机(共109台)安装在中国,居世界第二。当前我国拥有千万亿次以上计算能力的超算中心有10家以上,如:广州超算中心、天津超算中心、深圳超算中心、济南超算中心、长沙超算中心等等。预期到2017年我国将有15家以上千万亿次规模的超级计算中心。虽然广州超算中心的“天河2号”超级计算机在去年11月发布的全球最快性能超级计算机TOP500排行榜上以每秒33.86千万亿次的浮点运算速度第六次夺冠,但我国超级计算的发展依然面临缺乏统一的规划和功能定位、交叉领域的专业技术团队严重缺失、行业应用软件依赖国外严重、超级计算机应用效率低下等问题。如何规划和高效利用大规模超算中心,让其渗透和扩散到行业创新的方方面面,是当前需高度重视的问题。
随着虚拟化技术的发展、通信延迟的降低以及高性能计算应用类型和需求的多样性、广泛性,高性能计算云(High-performance Computing Cloud)以其较小的性能开销、灵活自主的管理服务模式逐渐成为超级计算的主流服务模式。以云计算的理念运营超级计算中心是一个重要的发展趋势。2015年10月,美国发布《美国创新战略》,该战略明确提出需保持美国在高性能计算领域的领先地位,政府机构将与计算机生产商和云供应商合作,令高性能计算资源更容易为人们所获得。在工业云未来的发展中,需进一步依托大规模超级计算中心建设区域工业云(大数据)创新服务中心,一方面,能基于云计算方式有效整合当前闲置的大规模超级计算中心资源;另一方面,也能够提供工业应用重大工程问题求解能力和大规模海量数据挖掘能力的支撑,并能承载培养和储备跨学科交叉领域高端专业人才的重任。
产业结构的调整优化和经济效率的提升是当下推动我国经济发展的本质。工业云和工业大数据,作为生产性服务业,其本质是基于技术创新,通过生产要素使用效率的提升来提高资源配置的效率,从而推动工业企业全要素生产率的提升,也即工业经济效率的提升。发展工业云(大数据)服务,是发展现代服务业,推动我国区域经济结构调整,提升我国产业结构高度的有效手段。
文章来源:网络
更多智道分享文章链接:http://bbs.imefuture.com/article/
 
1 回答

独享版虚机和共享版虚机的区别?

机械自动化类 别扭的螃蟹 2016-06-01 14:36 回复了问题 • 2 人关注 来自相关话题

1 回答

我想利用Hadoop搭建云计算平台,有什么建议?

机械自动化类 哭不是罪 2016-05-30 16:18 回复了问题 • 2 人关注 来自相关话题 产生赞赏:¥10.00

764 浏览

分享一篇对大数据深度思考的文章

智能科技类 莲心 2016-05-19 17:38 发表了文章 来自相关话题

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。

如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。

怎样结构大数据?

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

1特征定义

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解,比如,

“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”

“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

2价值探讨

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析,存在三种模式:

手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:

拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;

还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。

现在和未来

我们先看看大数据在当下有怎样的杰出表现:

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;

大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;

大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;

大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;

大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。

其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”

Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:

医疗机构将实时的监测用户的身体健康状况;

教育机构更有针对的制定用户喜欢的教育培训计划;

服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;

社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;

政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;

金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;

道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;

当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。

大数据隐私

你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。

更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。

用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。

说到隐私被侵犯,爱德华?斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。

再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意用户搜索了。

因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……

专家给予了我们一些如何有效保护大数据背景下隐私权的建议:

减少信息的数字化;

隐私权立法;

数字隐私权基础设施(类似DRM数字版权管理);

人类改变认知(接受忽略过去);

创造良性的信息生态;

语境化。

但是这些都很难立即见效或者有实质性的改善。

比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。

当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。

在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”

和大数据相关的技术

云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。

业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

如果将云计算与大数据进行一些比较,最明显的区分在两个方面:

第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。

而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others

Hadoop用到的一些技术有:

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (HadoopDistributed File System)

MapReduce:并行计算框架

HBase: 类似Google BigTable的分布式NoSQL列数据库。

Hive:数据仓库工具,由Facebook贡献。

Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Pig:大数据分析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

说了这么多,举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

淘宝大数据

如上图所示,淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。

数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层。在这个计算层内,淘宝采用的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。

存储层。在这一层,淘宝采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。

查询层。在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。

最后一层是产品层,这个就不用解释了。

存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

提到存储,有一个着名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

以Amazon举例,Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。 此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。

除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。

其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

大数据的实践

互联网的大数据

互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

在信息技术更为发达的美国,除了行业知名的类似Google,Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:

Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

TellApart:TellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

DataSift:DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。

举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:

用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

用户消费数据(精准营销、信用记录分析、活动促销、理财等)

用户地理位置数据(O2O推广,商家推荐,交友推荐等)

互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

政府的大数据

近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054 个datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

企业的大数据

企业的CXO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

那么,哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1) 对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

然而,一直做企业服务的巨头将优势不在,不得不眼看新兴互联网企业加入战局,开启残酷竞争模式。为何会出现这种局面?从 IT 产业的发展来看,第一代 IT 巨头大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP这类传统 IT 企业;第二代 IT 巨头大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术,大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)

IBM大数据

另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品:HAVEn,一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普运营管理(HP OperationsManagement)四大技术组成。还支持Hadoop这样通用的技术。HAVEn不是一个软件平台,而是一个生态环境。四大组成部分满足不同的应用场景需要,Autonomy解决音视频识别的重要解决方案;Vertica解决数据处理的速度和效率的方案;ArcSight解决机器的记录信息处理,帮助企业获得更高安全级别的管理;运营管理解决的不仅仅是外部数据的处理,而是包括了IT基础设施产生的数据。

个人的大数据

个人的大数据这个概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

举个例子来说明会更清晰一些:

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。用户可以将其中的牙齿监测数据授权给XX牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对的制定和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮你制定合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有这么一些特性:

数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。

采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。

展望过于美好,也许实现个人数据中心将遥遥无期,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止数据个人中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:到底是数据重要还是隐私重要;是以商业为中心还是以个人为中心。
文章来源:网络
更多智造家智道分享:www.imefuture.com
 
 
  查看全部
在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。

如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。

怎样结构大数据?

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

1特征定义

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解,比如,

“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”

“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

2价值探讨

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析,存在三种模式:

手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:

拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;

还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。

现在和未来

我们先看看大数据在当下有怎样的杰出表现:

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;

大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;

大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;

大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;

大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。

其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”

Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:

医疗机构将实时的监测用户的身体健康状况;

教育机构更有针对的制定用户喜欢的教育培训计划;

服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;

社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;

政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;

金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;

道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;

当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。

大数据隐私

你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。

更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。

用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。

说到隐私被侵犯,爱德华?斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。

再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意用户搜索了。

因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……

专家给予了我们一些如何有效保护大数据背景下隐私权的建议:

减少信息的数字化;

隐私权立法;

数字隐私权基础设施(类似DRM数字版权管理);

人类改变认知(接受忽略过去);

创造良性的信息生态;

语境化。

但是这些都很难立即见效或者有实质性的改善。

比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。

当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。

在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”

和大数据相关的技术

云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。

业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

如果将云计算与大数据进行一些比较,最明显的区分在两个方面:

第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。

而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others

Hadoop用到的一些技术有:

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (HadoopDistributed File System)

MapReduce:并行计算框架

HBase: 类似Google BigTable的分布式NoSQL列数据库。

Hive:数据仓库工具,由Facebook贡献。

Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Pig:大数据分析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

说了这么多,举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

淘宝大数据

如上图所示,淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。

数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层。在这个计算层内,淘宝采用的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。

存储层。在这一层,淘宝采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。

查询层。在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。

最后一层是产品层,这个就不用解释了。

存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

提到存储,有一个着名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

以Amazon举例,Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。 此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。

除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。

其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

大数据的实践

互联网的大数据

互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

在信息技术更为发达的美国,除了行业知名的类似Google,Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:

Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

TellApart:TellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

DataSift:DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。

举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:

用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

用户消费数据(精准营销、信用记录分析、活动促销、理财等)

用户地理位置数据(O2O推广,商家推荐,交友推荐等)

互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

政府的大数据

近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054 个datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

企业的大数据

企业的CXO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

那么,哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1) 对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

然而,一直做企业服务的巨头将优势不在,不得不眼看新兴互联网企业加入战局,开启残酷竞争模式。为何会出现这种局面?从 IT 产业的发展来看,第一代 IT 巨头大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP这类传统 IT 企业;第二代 IT 巨头大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术,大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)

IBM大数据

另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品:HAVEn,一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普运营管理(HP OperationsManagement)四大技术组成。还支持Hadoop这样通用的技术。HAVEn不是一个软件平台,而是一个生态环境。四大组成部分满足不同的应用场景需要,Autonomy解决音视频识别的重要解决方案;Vertica解决数据处理的速度和效率的方案;ArcSight解决机器的记录信息处理,帮助企业获得更高安全级别的管理;运营管理解决的不仅仅是外部数据的处理,而是包括了IT基础设施产生的数据。

个人的大数据

个人的大数据这个概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

举个例子来说明会更清晰一些:

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。用户可以将其中的牙齿监测数据授权给XX牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对的制定和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮你制定合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有这么一些特性:

数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。

采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。

展望过于美好,也许实现个人数据中心将遥遥无期,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止数据个人中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:到底是数据重要还是隐私重要;是以商业为中心还是以个人为中心。
文章来源:网络
更多智造家智道分享:www.imefuture.com
 
 
 
415 浏览

云管理成功的关键:应用工作流

管理类 将计就计 2016-04-25 16:31 发表了文章 来自相关话题

IT环境管理的目标就是要确保云应用的运行性能和系统可靠性达到一个最佳水平。在云计算中,应用与固定资源是相互隔离的,这就意味着负责云管理的IT管理人员必须对应用的工作流和资源进行并行管理。

为了简化云管理,首先应从用户的云应用入手。这样做可以让用户确定应用的响应时间,并确定可支持用户应用运行的资源。用户可以通过熟悉的应用工作流管理和集成工具来完成这些任务,而这些工具主要来自于各大IT厂商,如IBM、惠普企业以及微软等公司。
然后,使用在用户操作系统(OS)和中间件中可用的统计工具深挖每个云应用程序资源中的数据。针对用户私有云资源可以配合使用数据中心管理工具,而对于用户的公共云资源则可组合使用公共云管理工具。如果用户的数据中心托管了一个私有云,那么随着市场向混合云方向发展可考虑使用一个能够同时处理公共云和私有云的云管理工具。

如果管理人员把应用工作流视作一个端到端的流程,那么它可帮助他们确定应用的响应时间,这是云计算管理的起点。如果他们将其视为一系列步骤,那么工作流可帮助管理人员确定导致延迟或中断处理的组件。云应用工作流组件就是拥有各自统计数据(例如性能、状态和数据包丢失)和相关操作系统与中间件统计数据的应用部分,它们能够帮助识别问题。访问这些统计数据的工具可用于大多数基于虚拟机的云平台,并且还有来自于中间件的管理接口,所以用户可以由这些工具开始。

如果用户使用了多个操作系统和中间件平台,那么用户的云管理模式将要复杂得多。但还是有一些可用工具的,例如NodePrime就可以为一个复杂数据中心创建统一视图。

选择云管理工具的考虑因素

即使用户能够从机器镜像操作系统和中间件中获取管理数据,用户仍需要使用来自于云供应商的管理数据来对其进行补充。所有的公共云供应商都为基本部署和健康监测提供了管理应用编程接口(API),其中有一些厂商(其中包括亚马逊、IBM、微软以及Salesforce)则提供了一套完整的云管理工具套件。

高功能云管理工具通常能够解决伴随云而产生的技术问题和性能复杂性。由于众多企业用户最终将转向使用混合云,所以用户应当在所有评估的云管理工具中寻找具有混合云管理功能的工具。

大多数云管理工具都能够帮助企业用户基于他们的特定操作系统、中间件、云平台和网络管理API开发一个单一用户和应用的接口。除了这个基本模式,众多工具还各有侧重点,例如Scalr为多云计算环境提供了基于策略的生命周期管理和自动化功能。RightScale则是另一个采用自上而下基于角色方法的工具,被称为云产品组合管理。

云管理之路通往开发运营

简化的云管理模式是开发运营(DevOps)的方便跳点。它能够帮助用户使用特定资源的开发运营工具,并在工作流层次将其集成。如果用户希望在多个环境中运行他们的应用程序(例如在数据中心和跨多个云平台),那么应当试图不要针对每一个环境使用不同的开发运营工具,因为那样做会让生命周期管理变得极为复杂。相反,可考虑使用与用户不同IT环境集成的单一开发运营工具。
云管理战略是一个随应用开始、自上而下的流程,因为他们体现了企业的目标。分不同层次规划实施,投入最大量资金人员到最接近企业的层次以实施一个最优化的云计算管理战略。 查看全部
IT环境管理的目标就是要确保云应用的运行性能和系统可靠性达到一个最佳水平。在云计算中,应用与固定资源是相互隔离的,这就意味着负责云管理的IT管理人员必须对应用的工作流和资源进行并行管理。

为了简化云管理,首先应从用户的云应用入手。这样做可以让用户确定应用的响应时间,并确定可支持用户应用运行的资源。用户可以通过熟悉的应用工作流管理和集成工具来完成这些任务,而这些工具主要来自于各大IT厂商,如IBM、惠普企业以及微软等公司。
然后,使用在用户操作系统(OS)和中间件中可用的统计工具深挖每个云应用程序资源中的数据。针对用户私有云资源可以配合使用数据中心管理工具,而对于用户的公共云资源则可组合使用公共云管理工具。如果用户的数据中心托管了一个私有云,那么随着市场向混合云方向发展可考虑使用一个能够同时处理公共云和私有云的云管理工具。

如果管理人员把应用工作流视作一个端到端的流程,那么它可帮助他们确定应用的响应时间,这是云计算管理的起点。如果他们将其视为一系列步骤,那么工作流可帮助管理人员确定导致延迟或中断处理的组件。云应用工作流组件就是拥有各自统计数据(例如性能、状态和数据包丢失)和相关操作系统与中间件统计数据的应用部分,它们能够帮助识别问题。访问这些统计数据的工具可用于大多数基于虚拟机的云平台,并且还有来自于中间件的管理接口,所以用户可以由这些工具开始。

如果用户使用了多个操作系统和中间件平台,那么用户的云管理模式将要复杂得多。但还是有一些可用工具的,例如NodePrime就可以为一个复杂数据中心创建统一视图。

选择云管理工具的考虑因素

即使用户能够从机器镜像操作系统和中间件中获取管理数据,用户仍需要使用来自于云供应商的管理数据来对其进行补充。所有的公共云供应商都为基本部署和健康监测提供了管理应用编程接口(API),其中有一些厂商(其中包括亚马逊、IBM、微软以及Salesforce)则提供了一套完整的云管理工具套件。

高功能云管理工具通常能够解决伴随云而产生的技术问题和性能复杂性。由于众多企业用户最终将转向使用混合云,所以用户应当在所有评估的云管理工具中寻找具有混合云管理功能的工具。

大多数云管理工具都能够帮助企业用户基于他们的特定操作系统、中间件、云平台和网络管理API开发一个单一用户和应用的接口。除了这个基本模式,众多工具还各有侧重点,例如Scalr为多云计算环境提供了基于策略的生命周期管理和自动化功能。RightScale则是另一个采用自上而下基于角色方法的工具,被称为云产品组合管理。

云管理之路通往开发运营

简化的云管理模式是开发运营(DevOps)的方便跳点。它能够帮助用户使用特定资源的开发运营工具,并在工作流层次将其集成。如果用户希望在多个环境中运行他们的应用程序(例如在数据中心和跨多个云平台),那么应当试图不要针对每一个环境使用不同的开发运营工具,因为那样做会让生命周期管理变得极为复杂。相反,可考虑使用与用户不同IT环境集成的单一开发运营工具。
云管理战略是一个随应用开始、自上而下的流程,因为他们体现了企业的目标。分不同层次规划实施,投入最大量资金人员到最接近企业的层次以实施一个最优化的云计算管理战略。
1 回答
1 回答
1 回答

云盘进行云存储安全备份有什么好处?

机械自动化类 土豆泥 2016-06-07 17:21 回复了问题 • 2 人关注 来自相关话题

1 回答

独享版虚机和共享版虚机的区别?

机械自动化类 别扭的螃蟹 2016-06-01 14:36 回复了问题 • 2 人关注 来自相关话题

1 回答

我想利用Hadoop搭建云计算平台,有什么建议?

机械自动化类 哭不是罪 2016-05-30 16:18 回复了问题 • 2 人关注 来自相关话题 产生赞赏:¥10.00

1 回答
1 回答
507 浏览

云计算竞争态势悄然转变:从跑马圈地到深耕细作!

IT软件类 天黑请闭眼 2017-02-21 15:54 发表了文章 来自相关话题

摘要:云计算市场的竞争态势已经在悄然转变:回顾2016年的云计算市场,我们不仅看到了云计算厂商在收割季的满满收获,同样也看到了不同的云计算厂商其实也在各自找寻属于自己的位置。
     





     从IaaS到PaaS再到SaaS,云计算的产业链足够长;从金融到电信再到传统制造,云计算所应用的行业日益广泛;从开源到超融合再到安全,云计算的技术更新也在逐步进行……一切的一切都在让这个庞大的市场变得更加细分。同时,云计算也提出了一个新的命题:不同的云计算厂商如何在找到自己位置的同时,更好地处理复杂的竞合关系。
      这很大程度上得益于云计算市场的全面爆发,各大云计算厂商在坐收行业发展红利的同时,也在积极挖掘自己所擅长领域的商机,这也将进一步推动云计算市场走向成熟。
     
     云计算阵营的划分可谓由来已久,过去的区分主要从传统IT巨头、互联网巨头、电信运营商等层面去分,或者从IaaS、PaaS和SaaS领域去分,如今,这一阵营正在变得更加细分。比如,华为、浪潮等更加专注于设备层和IaaS层,他们拥有庞大的服务器、存储等产品线,同时,他们又基于这一庞大的产品线构建起IaaS,为企业提供私有云服务。
     相比较华为、浪潮等IT巨头,阿里云、腾讯云等更加专注于IaaS层面的公有云服务,有趣的是,腾讯云从去年开始就与阿里云展开贴身肉搏,几乎是阿里云做什么,腾讯云马上跟上,两者在公有云领域的竞争很大程度上也使得这一市场硝烟四起。其他如小米、乐视、网易等云计算企业同样也在各自所擅长的领域不断深耕。
       总而言之,从2016年至今,各大云计算厂商不再像过去那样云里雾里,而是更加务实,尽可能发挥自己的优势,在庞大的云计算市场中分得属于自己的那一杯羹。首先,他们意识到云计算市场足够大,只要做好自己的那一块,不愁没有市场;其次,他们也看到云计算市场虽然很大,但不是哪一家企业能够一统天下的,与其贪大求全,不如踏踏实实从最擅长的入手。
      由于近两年来互联网+的持续推进,云计算作为互联网应用发展的基础设施,已经在众多行业得到广泛应用。除了传统的游戏、电商、移动、社交等在内的互联网行业外,云计算在制造、政府、金融、交通、医疗健康等传统行业的应用也日渐深入。
       以阿里云为例,包括中国联通、诸如中石油、中石化、海关总署、徐工集团、中国气象局、华大基因等在内的国家机关和相关企业单位,都已经成为其重要客户。这对于国内云服务市场的发展,无疑是重大利好;过去,公有云的应用主要在一些中小企业集中的行业,对于能源、金融等大行业的核心应用,云计算一直处在边缘状态。
       不仅如此,在不同行业,也产生了一批针对行业个性化需求的专业云计算企业,他们更多立足自身在行业经验上的积累,通过与云计算巨头的合作,推动云计算在各个细分行业的落地应用。
       过去,在技术流派眼中,云计算主要是IaaS、PaaS和SaaS,但从2016年开始,技术流们开始专注于更加细分的技术创新,以提升云计算技术发展的成熟度。全闪存、CDN、超融合、OpenStack、容器……一个又一个新兴技术领域不断崛起。
       应该说,这些技术都已经发展数年,但在云计算市场没有全面爆发之前,这些技术的威力并没有完全体现出来;技术的发展得益于市场应用的催化,同时技术又在一定程度上推动了市场应用的普及,云计算也不例外。
        云计算市场的分工正在变得越来越细,但几乎所有的云计算厂商又毫不例外地指向同一个目标:让计算资源像水、电一样可以随取随用。因此,云计算市场虽然更加细分,但各个厂商早已不再是单打独斗或者说特立独行,探寻各自的边界以及寻求彼此的竞争和合作正在成为行业的主旋律。
        在新兴的云计算生态中,不管是硬件产品服务商还是细分技术领域的大牛,抑或是拥有丰富行业应用经验的企业,他们都在努力营造一个共同的云计算生态,并在这样一个生态圈中各司其职,在彼此竞争的边界外寻求更为广泛的合作。
                                                           -----------------来源网络-------------------- 查看全部
摘要:云计算市场的竞争态势已经在悄然转变:回顾2016年的云计算市场,我们不仅看到了云计算厂商在收割季的满满收获,同样也看到了不同的云计算厂商其实也在各自找寻属于自己的位置。
     
云计算.jpg


     从IaaS到PaaS再到SaaS,云计算的产业链足够长;从金融到电信再到传统制造,云计算所应用的行业日益广泛;从开源到超融合再到安全,云计算的技术更新也在逐步进行……一切的一切都在让这个庞大的市场变得更加细分。同时,云计算也提出了一个新的命题:不同的云计算厂商如何在找到自己位置的同时,更好地处理复杂的竞合关系。
      这很大程度上得益于云计算市场的全面爆发,各大云计算厂商在坐收行业发展红利的同时,也在积极挖掘自己所擅长领域的商机,这也将进一步推动云计算市场走向成熟。
     
     云计算阵营的划分可谓由来已久,过去的区分主要从传统IT巨头、互联网巨头、电信运营商等层面去分,或者从IaaS、PaaS和SaaS领域去分,如今,这一阵营正在变得更加细分。比如,华为、浪潮等更加专注于设备层和IaaS层,他们拥有庞大的服务器、存储等产品线,同时,他们又基于这一庞大的产品线构建起IaaS,为企业提供私有云服务。
     相比较华为、浪潮等IT巨头,阿里云、腾讯云等更加专注于IaaS层面的公有云服务,有趣的是,腾讯云从去年开始就与阿里云展开贴身肉搏,几乎是阿里云做什么,腾讯云马上跟上,两者在公有云领域的竞争很大程度上也使得这一市场硝烟四起。其他如小米、乐视、网易等云计算企业同样也在各自所擅长的领域不断深耕。
       总而言之,从2016年至今,各大云计算厂商不再像过去那样云里雾里,而是更加务实,尽可能发挥自己的优势,在庞大的云计算市场中分得属于自己的那一杯羹。首先,他们意识到云计算市场足够大,只要做好自己的那一块,不愁没有市场;其次,他们也看到云计算市场虽然很大,但不是哪一家企业能够一统天下的,与其贪大求全,不如踏踏实实从最擅长的入手。
      由于近两年来互联网+的持续推进,云计算作为互联网应用发展的基础设施,已经在众多行业得到广泛应用。除了传统的游戏、电商、移动、社交等在内的互联网行业外,云计算在制造、政府、金融、交通、医疗健康等传统行业的应用也日渐深入。
       以阿里云为例,包括中国联通、诸如中石油、中石化、海关总署、徐工集团、中国气象局、华大基因等在内的国家机关和相关企业单位,都已经成为其重要客户。这对于国内云服务市场的发展,无疑是重大利好;过去,公有云的应用主要在一些中小企业集中的行业,对于能源、金融等大行业的核心应用,云计算一直处在边缘状态。
       不仅如此,在不同行业,也产生了一批针对行业个性化需求的专业云计算企业,他们更多立足自身在行业经验上的积累,通过与云计算巨头的合作,推动云计算在各个细分行业的落地应用。
       过去,在技术流派眼中,云计算主要是IaaS、PaaS和SaaS,但从2016年开始,技术流们开始专注于更加细分的技术创新,以提升云计算技术发展的成熟度。全闪存、CDN、超融合、OpenStack、容器……一个又一个新兴技术领域不断崛起。
       应该说,这些技术都已经发展数年,但在云计算市场没有全面爆发之前,这些技术的威力并没有完全体现出来;技术的发展得益于市场应用的催化,同时技术又在一定程度上推动了市场应用的普及,云计算也不例外。
        云计算市场的分工正在变得越来越细,但几乎所有的云计算厂商又毫不例外地指向同一个目标:让计算资源像水、电一样可以随取随用。因此,云计算市场虽然更加细分,但各个厂商早已不再是单打独斗或者说特立独行,探寻各自的边界以及寻求彼此的竞争和合作正在成为行业的主旋律。
        在新兴的云计算生态中,不管是硬件产品服务商还是细分技术领域的大牛,抑或是拥有丰富行业应用经验的企业,他们都在努力营造一个共同的云计算生态,并在这样一个生态圈中各司其职,在彼此竞争的边界外寻求更为广泛的合作。
                                                           -----------------来源网络--------------------
488 浏览

“云管端”集合发力 生态闭环促进开启物联网盛宴(附报告)

智能制造类 品管人生 2016-10-18 10:19 发表了文章 来自相关话题

 
物联网从提出到现在已有近20 年历史。近二十年中,物联网领域出现了翻天覆地的变化,智能穿戴、智能家居、工业物联网等概念已走向现实。
 
然而物联网多年的发展似乎将更多的关注点放在了终端侧,而终端侧各类技术也限制了物联网的发展。物联网的第一个模式——电子标签仅能承载KB 级别的数据量,而且并没有有源射频的支持,仅能通过NFC 等方式支持近场通信。Google Glasses 等先驱产品由于没有解决3L 问题(长时间、长距离、低价格),虽然启发了物联网的网络连接形式,却不能大量铺开。
 
另外,早期物联网的“云管”方面并未受到重视,“管”的缺失导致物联网没有标准的传输协议,全国范围的远距离数据传输通过2G、4G 网络实现,不能实现大规模连接。“云”的缺失导致物联网为了连接而连接,并不能提高生产效率,也难以抓住消费者痛点。
 
我们认为,作为一个综合性的网络,物联网的最终爆发绝不仅仅限于终端侧,“云管端”的集合发力,生态闭环才是物联网正确的解读方式。
 
以下为报告全文:
[login] 























































































































































































































 
[/login]
 
 

来源 中信建投 199IT互联网数据中心
智造家提供 查看全部
 
物联网从提出到现在已有近20 年历史。近二十年中,物联网领域出现了翻天覆地的变化,智能穿戴、智能家居、工业物联网等概念已走向现实。
 
然而物联网多年的发展似乎将更多的关注点放在了终端侧,而终端侧各类技术也限制了物联网的发展。物联网的第一个模式——电子标签仅能承载KB 级别的数据量,而且并没有有源射频的支持,仅能通过NFC 等方式支持近场通信。Google Glasses 等先驱产品由于没有解决3L 问题(长时间、长距离、低价格),虽然启发了物联网的网络连接形式,却不能大量铺开。
 
另外,早期物联网的“云管”方面并未受到重视,“管”的缺失导致物联网没有标准的传输协议,全国范围的远距离数据传输通过2G、4G 网络实现,不能实现大规模连接。“云”的缺失导致物联网为了连接而连接,并不能提高生产效率,也难以抓住消费者痛点。
 
我们认为,作为一个综合性的网络,物联网的最终爆发绝不仅仅限于终端侧,“云管端”的集合发力,生态闭环才是物联网正确的解读方式。
 
以下为报告全文:
[login] 

1.2_.jpg


1.3_.jpg


1.4_.jpg


1.5_.jpg


1.6_.jpg


1.7_.jpg


1.8_.jpg


1.9_.jpg


1.10_.jpg


1.11_.jpg


1.12_.jpg


1.13_.jpg


1.14_.jpg


1.15_.jpg


1.16_.jpg


1.17_.jpg


1.18_.jpg


1.19_.jpg


1.20_.jpg


1.21_.jpg


1.22_.jpg


1.23_.jpg


1.24_.jpg


1.25_.jpg


1.26_.jpg


1.27_.jpg


1.28_.jpg


1.29_.jpg


1.30_.jpg


1.31_.jpg


1.32_.jpg


1.33_.jpg


1.34_.jpg


1.35_.jpg


1.36_.jpg


1.37_.jpg


1.38_.jpg


1.39_.jpg


1.40_.jpg


1.41_.jpg


1.42_.jpg


1.43_.jpg


1.44_.jpg

 
[/login]
 
 

来源 中信建投 199IT互联网数据中心
智造家提供
671 浏览

工业云计算在中国的发展与趋势

机械自动化类 乌龟大师 2016-06-01 16:46 发表了文章 来自相关话题

   云计算、大数据将成为未来10年乃至更长时间新一代信息技术和产业的关键和核心,其和移动互联网、物联网等其他新一代信息技术一起正驱动互联网向传统工业制造业渗透,推动互联网企业和传统工业企业融合发展,并作为现代服务业的有机组成部分,不断与新业务形态、新商业模式互动融合,催生新产品、新技术、新模式。未来,产业中各行业边界将逐渐模糊,全新的工业经济发展模式正在到来。
工业云催生工业经济新业态
云计算、大数据、物联网等技术的集成应用,推动了新型制造模式的产生与发展,也进一步加速了工业企业销售模式的变革,催生了社交营销、O2O(Online to Offline)、智能物流、互联网金融、移动电子商务等生产性互联网新兴服务业态,是推动区域产业结构优化调整的重要引擎。
工业云通常指基于云计算架构的工业云平台和基于工业云平台提供的工业云服务,涉及产品研发设计、实验和仿真、工程计算、工艺设计、加工制造及运营管理等诸多环节。工业云服务常见的方式有工业SaaS(Software as a Service)云服务、工业IaaS(Infrastructure as a Service)云服务、工业PaaS(Platform as a Service)云服务等方式。工业云基于云计算技术架构,使工业设计和制造、生产运营管理等工具大众化、简洁化、透明化,通过工业云计算服务,可大幅提升工业企业全要素劳动生产率。
基于工业云服务,用户一方面可以获得云化的工业设计、加工工艺分析、装配工艺分析、模具设计、机械零部件设计与性能分析、电磁场模拟等服务,从而大幅缩短产品升级换代周期、降低设计与制造成本、提高产品性能;另一方面,工业企业的订单管理、主生产计划、备料等诸多环节均可依托工业云平台的ERP(企业资源计划)、DMS(经销商管理系统)、PLM(产品生命周期管理)等企业管理工具来提升管理效能;同时,用户也可基于工业云服务平台对生产设计、企业经营管理及用户交互中各种数据进行充分挖掘,利用大数据为企业研发、生产、营销、交易、服务等活动提供服务。
工业与互联网融合旨在加速工业转型升级和提质增效,变革传统工业生产运营方式,创造出更大的价值,这就需要以云计算、大数据辅助工业企业创新其研发、生产、运营、营销、服务和管理方式。当前,基于云计算平台的工业设计、虚拟装配、精准营销配送、精准广告推送等模式已成为企业发展的新趋势,可以说,工业云计算服务、工业大数据服务已成为推动互联网与工业融合发展的主要支撑手段,并与企业技术研发、流程管理以及生产经营等方面紧密融合,塑造企业发展新模式、催生工业经济新业态。
全国各地积极建设工业云计算平台
2009年9月,北京市计算中心开始工业云实践,打造工业云计算服务平台(http://www.industrycloud.com.cn),基于其200万亿次高性能工业云计算服务平台,能够以SaaS云服务方式提供CAD(计算机辅助设计)、CAM(计算机辅助制造)、CAPP(计算机辅助工艺设计)、CAE(计算机辅助工程设计)、PLM(产品全生命周期管理)等所需要的工具和管理软件服务,还能够为中小企业提供丰富的设计制造资源和3D打印等工程服务,截止到2015年,该平台已经服务近十万户,广泛应用于工业设计、虚拟制造、动漫渲染等诸多领域。
2013年以来,国家出台了一系列政策鼓励工业云的发展,《国务院关于积极推进“互联网+”行动的指导意见》、《国务院关于大力推进大众创业万众创新若干政策措施的意见》、《中国制造2025》、《信息化和工业化深度融合专项行动计划(2013-2018年)》等文件均把推动工业云的发展作为推动两化深度融合和“互联网+”的重要抓手。2013年,工业和信息化部确定北京、天津、河北、内蒙、黑龙江、上海、江苏、浙江、山东、河南、湖北、广东、重庆、贵州、青海、宁夏等16个省市开展首批工业云创新服务试点,基于互联网、云计算、物联网、大数据等新一代信息技术,建设工业云服务平台,聚集和共享制造资源和创新资源,推进制造需求和社会化制造资源的高质高效对接,探索制造业领域的共享经济新模式。
在上述工业云创新服务试点中,天津市主要依托天津超算中心建立了天津滨海工业云平台(http://www.tjbh-icloud.cn);内蒙古采用“1+N+N”服务模式(即一个平台、多种应用服务、多种专业资源服务)打造包头两化融合暨工业云创新服务平台(http://www.btlhrhpt.com);黑龙江工业云平台(http://www.hljgyy.com)包括工业云设计、工业云存储等应用;河南工业云平台(http://www.gyyhn.com)主要由设计云、服务云、管理云组成;山东工业云创新服务平台(http://www.ind-cloud.com)依托山东超算中心,主要提供设计云、管理云、商务云、物联服务云、知识云及数据云等服务;江苏工业云平台(http://www.gyycloud.com)主要提供面向汽车行业的数字化设计仿真等云服务;上海工业云公共服务平台(http://www.shicloud.org)面向钢铁、汽车、民用航空、机电设备四大重点产业和研发、管理、设备、能源、物流、商务等六大重点领域,为企业提供SaaS云、IaaS云服务;广东工业云平台(http://www.gdcloud.org)主要提供政务云、云桌面、工业软件云、培训云、检测云、电商云等云计算服务;重庆工业云平台(http://cq.caxa.com)包括工业设计云、企业采购云和工业金融云等三大云服务平台。
据不完全统计,16个工业云平台注册用户数超过1500万,企业用户数超过20万,提供软件工具和软件服务超过3000个,模型、图纸、手册等技术资源超过4万个,培训视频超过7500部。上述工业云平台在驱动当地工业经济发展中均发挥了重要作用,以贵州工业云(http://gz-icloud.com.cn)为例,贵州工业云提供260个云应用,服务企业用户达15998家,基于工业云服务,2015年实现重点行业数字化研发设计工具普及率达到40.5%,比2014年提高4.8个百分点,传统企业电商覆盖率达到35.3%,比2014年提高5个百分点。预期2016年,在贵州工业云的推动下,重点行业数字化研发设计工具普及率将达到45%以上,传统工业企业电商化覆盖率将达到40%以上。
当前各地工业云计算平台的建设和发展,从总体来看,对推动区域经济体产业发展起到积极的效果,取得不错的成绩,但也存在若干问题,主要有以下几个方面:从平台建设来看,大部分工业云平台的建设没有和区域经济体资源禀赋以及主导产业优势相结合,部分区域在建设工业云服务平台中也没有结合当地已有的公共计算服务平台资源,造成重复投资、资源闲置等问题;从平台服务来看,大部分工业云平台以提供工业SaaS云服务为主,存在服务内容同质化、服务标准不统一、用户数据安全保障不到位等问题,同时工业云服务也没有和工业大数据服务融合起来;从商业模式来看,当前大部分工业云平台的运营主要以政府投资为主,面临盈利困难等运营压力,如何进一步加大工业云平台的推广和使用,创新商业模式,引入成熟的市场化发展机制,让更多的用户能透明化访问和使用工业云计算平台,值得深入探索。
推动工业云下一步发展
结合前期工业云计算服务创新试点的实践,需从如下几个方面进一步促进工业云计算平台的发展:
大力开发大规模工业应用软件,发展工业PaaS云应用
当前全国各地建设的工业云计算服务平台,大多数以提供SaaS工业云服务为主,但目前大部分大规模工业应用软件并不支持云计算架构。在科学与工程计算领域,软件市场长期完全由国外软件垄断,版权费用非常昂贵,且并行规模还受限制,这些工业应用软件大多发展于半个世纪前,软件框架未能考虑现在及未来的超大规模计算需求,特别是前处理部分,已被证明是阻碍大规模计算发展的严重瓶颈。构建工业云计算服务平台迫切需要高水平的自主开发的面向云计算体系架构的大规模并行应用软件。
当前大部分工业PaaS云服务和商业模式还处于摸索阶段,还存在很多缺陷和不足,而恰恰PaaS对提升传统产业的创新能力意义深远,因为当前制约传统产业创新能力的很大一方面就是缺少必要的创新工具、创新平台以及专业的创新团队,云计算中心以透明化方式提供行业应用PaaS服务将有效解决这一问题,尤其在传统制造业方面,但传统制造业的PaaS平台研制还面临诸多问题,如制造行业的细分问题,制造业非常庞大,如何选择细分的制造领域入手?如何提供透明化的PaaS API接口供制造业用户调用?这些都是问题,解决了这些问题,云计算对产业的拉动和潜力才能完全得到释放。工业云在未来的发展中,需更多地以建设工业PaaS云服务平台为主,包括建设面向工艺和面向行业的PaaS云,如磨削云、切削云、焊接云、精加工云、服装云等。
工业云和工业大数据需进一步融合发展
工业云旨在解决中小型工业企业在提升创新能力时往往要面临的工业计算软件及平台搭建、计算机建模和仿真、高端研发人员的培养等诸多问题,基于工业云服务,工业用户可进行快速有效的仿真模拟,降低设计与制造成本、提高原料的利用率、从而大幅缩短企业产品升级换代周期、提高产品性能、提升企业信息化能力、大幅提升工业企业的自主创新效率,并推动企业核心竞争优势的提升。
工业大数据基于云计算、物联网、移动互联网、海量数据挖掘等新一代信息技术推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,并与智能机床、机器人、3D打印等技术结合,推动了柔性制造、智能制造和网络制造的发展;工业大数据与智能物流、电子商务的联动,也进一步加速了工业企业销售模式的变革,如精准营销配送、精准广告推送等。
工业云和工业大数据均以辅助工业企业创新其研发、生产、运营、服务和管理方式推动互联网与工业融合发展,成为当前经济新常态下,加速工业转型升级和提质增效的重要手段。工业云和工业大数据,二者你中有我,我中有你,均基于工业云计算服务平台进行海量数据的存储、数据挖掘和可视化呈现,工业云是工业大数据的平台和支撑手段,工业大数据则拓展了工业云的服务范畴,二者未来将进一步融合发展,推动互联网由以服务个人用户消费为主向服务生产性应用为主,由此导致产业模式、制造模式和商业模式的重塑。
工业云(大数据)建设需进一步结合区域资源禀赋和主导产业特征
当前,工业云(大数据)应用服务的供给和需求存在阶段性结构性矛盾。一方面工业云计算服务、工业大数据服务有着广泛的需求;另一方面,部分工业云(大数据)服务平台却存在用户不足、资源闲置等情况。以上问题产生的原因主要有两点,一是当前大部分工业云服务同质化严重,大部分工业云平台缺乏与当地主导产业紧密耦合的服务设计,接地气不足;二是工业云作为相关技术、平台和交易模式的集成创新,其发展受制于商业模式的简洁性、效益的可预期性。当前已建成的工业云平台其安全性、服务的易获得性都有很大的提升空间,大部分还是政府资助在运营,需尽快走出一条商业化运营的可行模式。
在未来的工业云建设运营中,需进一步紧密结合区域经济体的资源禀赋和主导产业特征,要结合区域产业的集群性、产业的比较优势和产业的关联优势,因地制宜地建设工业云平台、设计工业云服务,只有这样,才能让工业云成为推动当地工业经济发展的“润滑剂”和“催化剂”。
依托大规模超算中心,构建区域工业云(大数据)创新服务中心
工业云的发展最终将采取“垂直工业云服务”模式,采用“大规模计算平台+大规模工业设备+领域专家团队+主导产业创新服务”的垂直创新模式,基于区域经济体资源禀赋和产业优势建立区域级工业云服务平台(也即工业云创新服务中心)。从美国等发达国家来看,依托云计算等新一代信息技术,建设先进制造创新中心并形成国家制造业创新网络,也是美国先进制造战略的重大举措。区域级工业云创新服务中心将成为未来区域经济体新技术的主要供给者、产业发展的重要催化剂。通过工业云创新服务中心,可进一步提升区域经济体主导产业的核心竞争力,并通过其渗透和扩散性,培育新经济增长点。
在建设区域工业云创新服务中心时,要依托大规模超级计算中心打造工业云(大数据)平台。超算中心是为工业、商业、政府决策支持等领域的计算密集型应用和数据密集型应用提供快速、精确处理能力的数据平台,与云计算中心相比,其服务的本质都是提供计算服务能力和数据处理服务能力。千万亿次以下的超算中心在我国已建成很多,在2015年11月发布的中国最快性能超级计算机TOP100排行榜上,入榜的超级计算机每秒浮点运算性能全部超过300万亿次。2015年11月发布的全球最快性能超级计算机TOP500排行榜中,全球21.8%的最快性能超级计算机(共109台)安装在中国,居世界第二。当前我国拥有千万亿次以上计算能力的超算中心有10家以上,如:广州超算中心、天津超算中心、深圳超算中心、济南超算中心、长沙超算中心等等。预期到2017年我国将有15家以上千万亿次规模的超级计算中心。虽然广州超算中心的“天河2号”超级计算机在去年11月发布的全球最快性能超级计算机TOP500排行榜上以每秒33.86千万亿次的浮点运算速度第六次夺冠,但我国超级计算的发展依然面临缺乏统一的规划和功能定位、交叉领域的专业技术团队严重缺失、行业应用软件依赖国外严重、超级计算机应用效率低下等问题。如何规划和高效利用大规模超算中心,让其渗透和扩散到行业创新的方方面面,是当前需高度重视的问题。
随着虚拟化技术的发展、通信延迟的降低以及高性能计算应用类型和需求的多样性、广泛性,高性能计算云(High-performance Computing Cloud)以其较小的性能开销、灵活自主的管理服务模式逐渐成为超级计算的主流服务模式。以云计算的理念运营超级计算中心是一个重要的发展趋势。2015年10月,美国发布《美国创新战略》,该战略明确提出需保持美国在高性能计算领域的领先地位,政府机构将与计算机生产商和云供应商合作,令高性能计算资源更容易为人们所获得。在工业云未来的发展中,需进一步依托大规模超级计算中心建设区域工业云(大数据)创新服务中心,一方面,能基于云计算方式有效整合当前闲置的大规模超级计算中心资源;另一方面,也能够提供工业应用重大工程问题求解能力和大规模海量数据挖掘能力的支撑,并能承载培养和储备跨学科交叉领域高端专业人才的重任。
产业结构的调整优化和经济效率的提升是当下推动我国经济发展的本质。工业云和工业大数据,作为生产性服务业,其本质是基于技术创新,通过生产要素使用效率的提升来提高资源配置的效率,从而推动工业企业全要素生产率的提升,也即工业经济效率的提升。发展工业云(大数据)服务,是发展现代服务业,推动我国区域经济结构调整,提升我国产业结构高度的有效手段。
文章来源:网络
更多智道分享文章链接:http://bbs.imefuture.com/article/
  查看全部

   云计算、大数据将成为未来10年乃至更长时间新一代信息技术和产业的关键和核心,其和移动互联网、物联网等其他新一代信息技术一起正驱动互联网向传统工业制造业渗透,推动互联网企业和传统工业企业融合发展,并作为现代服务业的有机组成部分,不断与新业务形态、新商业模式互动融合,催生新产品、新技术、新模式。未来,产业中各行业边界将逐渐模糊,全新的工业经济发展模式正在到来。
工业云催生工业经济新业态
云计算、大数据、物联网等技术的集成应用,推动了新型制造模式的产生与发展,也进一步加速了工业企业销售模式的变革,催生了社交营销、O2O(Online to Offline)、智能物流、互联网金融、移动电子商务等生产性互联网新兴服务业态,是推动区域产业结构优化调整的重要引擎。
工业云通常指基于云计算架构的工业云平台和基于工业云平台提供的工业云服务,涉及产品研发设计、实验和仿真、工程计算、工艺设计、加工制造及运营管理等诸多环节。工业云服务常见的方式有工业SaaS(Software as a Service)云服务、工业IaaS(Infrastructure as a Service)云服务、工业PaaS(Platform as a Service)云服务等方式。工业云基于云计算技术架构,使工业设计和制造、生产运营管理等工具大众化、简洁化、透明化,通过工业云计算服务,可大幅提升工业企业全要素劳动生产率。
基于工业云服务,用户一方面可以获得云化的工业设计、加工工艺分析、装配工艺分析、模具设计、机械零部件设计与性能分析、电磁场模拟等服务,从而大幅缩短产品升级换代周期、降低设计与制造成本、提高产品性能;另一方面,工业企业的订单管理、主生产计划、备料等诸多环节均可依托工业云平台的ERP(企业资源计划)、DMS(经销商管理系统)、PLM(产品生命周期管理)等企业管理工具来提升管理效能;同时,用户也可基于工业云服务平台对生产设计、企业经营管理及用户交互中各种数据进行充分挖掘,利用大数据为企业研发、生产、营销、交易、服务等活动提供服务。
工业与互联网融合旨在加速工业转型升级和提质增效,变革传统工业生产运营方式,创造出更大的价值,这就需要以云计算、大数据辅助工业企业创新其研发、生产、运营、营销、服务和管理方式。当前,基于云计算平台的工业设计、虚拟装配、精准营销配送、精准广告推送等模式已成为企业发展的新趋势,可以说,工业云计算服务、工业大数据服务已成为推动互联网与工业融合发展的主要支撑手段,并与企业技术研发、流程管理以及生产经营等方面紧密融合,塑造企业发展新模式、催生工业经济新业态。
全国各地积极建设工业云计算平台
2009年9月,北京市计算中心开始工业云实践,打造工业云计算服务平台(http://www.industrycloud.com.cn),基于其200万亿次高性能工业云计算服务平台,能够以SaaS云服务方式提供CAD(计算机辅助设计)、CAM(计算机辅助制造)、CAPP(计算机辅助工艺设计)、CAE(计算机辅助工程设计)、PLM(产品全生命周期管理)等所需要的工具和管理软件服务,还能够为中小企业提供丰富的设计制造资源和3D打印等工程服务,截止到2015年,该平台已经服务近十万户,广泛应用于工业设计、虚拟制造、动漫渲染等诸多领域。
2013年以来,国家出台了一系列政策鼓励工业云的发展,《国务院关于积极推进“互联网+”行动的指导意见》、《国务院关于大力推进大众创业万众创新若干政策措施的意见》、《中国制造2025》、《信息化和工业化深度融合专项行动计划(2013-2018年)》等文件均把推动工业云的发展作为推动两化深度融合和“互联网+”的重要抓手。2013年,工业和信息化部确定北京、天津、河北、内蒙、黑龙江、上海、江苏、浙江、山东、河南、湖北、广东、重庆、贵州、青海、宁夏等16个省市开展首批工业云创新服务试点,基于互联网、云计算、物联网、大数据等新一代信息技术,建设工业云服务平台,聚集和共享制造资源和创新资源,推进制造需求和社会化制造资源的高质高效对接,探索制造业领域的共享经济新模式。
在上述工业云创新服务试点中,天津市主要依托天津超算中心建立了天津滨海工业云平台(http://www.tjbh-icloud.cn);内蒙古采用“1+N+N”服务模式(即一个平台、多种应用服务、多种专业资源服务)打造包头两化融合暨工业云创新服务平台(http://www.btlhrhpt.com);黑龙江工业云平台(http://www.hljgyy.com)包括工业云设计、工业云存储等应用;河南工业云平台(http://www.gyyhn.com)主要由设计云、服务云、管理云组成;山东工业云创新服务平台(http://www.ind-cloud.com)依托山东超算中心,主要提供设计云、管理云、商务云、物联服务云、知识云及数据云等服务;江苏工业云平台(http://www.gyycloud.com)主要提供面向汽车行业的数字化设计仿真等云服务;上海工业云公共服务平台(http://www.shicloud.org)面向钢铁、汽车、民用航空、机电设备四大重点产业和研发、管理、设备、能源、物流、商务等六大重点领域,为企业提供SaaS云、IaaS云服务;广东工业云平台(http://www.gdcloud.org)主要提供政务云、云桌面、工业软件云、培训云、检测云、电商云等云计算服务;重庆工业云平台(http://cq.caxa.com)包括工业设计云、企业采购云和工业金融云等三大云服务平台。
据不完全统计,16个工业云平台注册用户数超过1500万,企业用户数超过20万,提供软件工具和软件服务超过3000个,模型、图纸、手册等技术资源超过4万个,培训视频超过7500部。上述工业云平台在驱动当地工业经济发展中均发挥了重要作用,以贵州工业云(http://gz-icloud.com.cn)为例,贵州工业云提供260个云应用,服务企业用户达15998家,基于工业云服务,2015年实现重点行业数字化研发设计工具普及率达到40.5%,比2014年提高4.8个百分点,传统企业电商覆盖率达到35.3%,比2014年提高5个百分点。预期2016年,在贵州工业云的推动下,重点行业数字化研发设计工具普及率将达到45%以上,传统工业企业电商化覆盖率将达到40%以上。
当前各地工业云计算平台的建设和发展,从总体来看,对推动区域经济体产业发展起到积极的效果,取得不错的成绩,但也存在若干问题,主要有以下几个方面:从平台建设来看,大部分工业云平台的建设没有和区域经济体资源禀赋以及主导产业优势相结合,部分区域在建设工业云服务平台中也没有结合当地已有的公共计算服务平台资源,造成重复投资、资源闲置等问题;从平台服务来看,大部分工业云平台以提供工业SaaS云服务为主,存在服务内容同质化、服务标准不统一、用户数据安全保障不到位等问题,同时工业云服务也没有和工业大数据服务融合起来;从商业模式来看,当前大部分工业云平台的运营主要以政府投资为主,面临盈利困难等运营压力,如何进一步加大工业云平台的推广和使用,创新商业模式,引入成熟的市场化发展机制,让更多的用户能透明化访问和使用工业云计算平台,值得深入探索。
推动工业云下一步发展
结合前期工业云计算服务创新试点的实践,需从如下几个方面进一步促进工业云计算平台的发展:
大力开发大规模工业应用软件,发展工业PaaS云应用
当前全国各地建设的工业云计算服务平台,大多数以提供SaaS工业云服务为主,但目前大部分大规模工业应用软件并不支持云计算架构。在科学与工程计算领域,软件市场长期完全由国外软件垄断,版权费用非常昂贵,且并行规模还受限制,这些工业应用软件大多发展于半个世纪前,软件框架未能考虑现在及未来的超大规模计算需求,特别是前处理部分,已被证明是阻碍大规模计算发展的严重瓶颈。构建工业云计算服务平台迫切需要高水平的自主开发的面向云计算体系架构的大规模并行应用软件。
当前大部分工业PaaS云服务和商业模式还处于摸索阶段,还存在很多缺陷和不足,而恰恰PaaS对提升传统产业的创新能力意义深远,因为当前制约传统产业创新能力的很大一方面就是缺少必要的创新工具、创新平台以及专业的创新团队,云计算中心以透明化方式提供行业应用PaaS服务将有效解决这一问题,尤其在传统制造业方面,但传统制造业的PaaS平台研制还面临诸多问题,如制造行业的细分问题,制造业非常庞大,如何选择细分的制造领域入手?如何提供透明化的PaaS API接口供制造业用户调用?这些都是问题,解决了这些问题,云计算对产业的拉动和潜力才能完全得到释放。工业云在未来的发展中,需更多地以建设工业PaaS云服务平台为主,包括建设面向工艺和面向行业的PaaS云,如磨削云、切削云、焊接云、精加工云、服装云等。
工业云和工业大数据需进一步融合发展
工业云旨在解决中小型工业企业在提升创新能力时往往要面临的工业计算软件及平台搭建、计算机建模和仿真、高端研发人员的培养等诸多问题,基于工业云服务,工业用户可进行快速有效的仿真模拟,降低设计与制造成本、提高原料的利用率、从而大幅缩短企业产品升级换代周期、提高产品性能、提升企业信息化能力、大幅提升工业企业的自主创新效率,并推动企业核心竞争优势的提升。
工业大数据基于云计算、物联网、移动互联网、海量数据挖掘等新一代信息技术推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,并与智能机床、机器人、3D打印等技术结合,推动了柔性制造、智能制造和网络制造的发展;工业大数据与智能物流、电子商务的联动,也进一步加速了工业企业销售模式的变革,如精准营销配送、精准广告推送等。
工业云和工业大数据均以辅助工业企业创新其研发、生产、运营、服务和管理方式推动互联网与工业融合发展,成为当前经济新常态下,加速工业转型升级和提质增效的重要手段。工业云和工业大数据,二者你中有我,我中有你,均基于工业云计算服务平台进行海量数据的存储、数据挖掘和可视化呈现,工业云是工业大数据的平台和支撑手段,工业大数据则拓展了工业云的服务范畴,二者未来将进一步融合发展,推动互联网由以服务个人用户消费为主向服务生产性应用为主,由此导致产业模式、制造模式和商业模式的重塑。
工业云(大数据)建设需进一步结合区域资源禀赋和主导产业特征
当前,工业云(大数据)应用服务的供给和需求存在阶段性结构性矛盾。一方面工业云计算服务、工业大数据服务有着广泛的需求;另一方面,部分工业云(大数据)服务平台却存在用户不足、资源闲置等情况。以上问题产生的原因主要有两点,一是当前大部分工业云服务同质化严重,大部分工业云平台缺乏与当地主导产业紧密耦合的服务设计,接地气不足;二是工业云作为相关技术、平台和交易模式的集成创新,其发展受制于商业模式的简洁性、效益的可预期性。当前已建成的工业云平台其安全性、服务的易获得性都有很大的提升空间,大部分还是政府资助在运营,需尽快走出一条商业化运营的可行模式。
在未来的工业云建设运营中,需进一步紧密结合区域经济体的资源禀赋和主导产业特征,要结合区域产业的集群性、产业的比较优势和产业的关联优势,因地制宜地建设工业云平台、设计工业云服务,只有这样,才能让工业云成为推动当地工业经济发展的“润滑剂”和“催化剂”。
依托大规模超算中心,构建区域工业云(大数据)创新服务中心
工业云的发展最终将采取“垂直工业云服务”模式,采用“大规模计算平台+大规模工业设备+领域专家团队+主导产业创新服务”的垂直创新模式,基于区域经济体资源禀赋和产业优势建立区域级工业云服务平台(也即工业云创新服务中心)。从美国等发达国家来看,依托云计算等新一代信息技术,建设先进制造创新中心并形成国家制造业创新网络,也是美国先进制造战略的重大举措。区域级工业云创新服务中心将成为未来区域经济体新技术的主要供给者、产业发展的重要催化剂。通过工业云创新服务中心,可进一步提升区域经济体主导产业的核心竞争力,并通过其渗透和扩散性,培育新经济增长点。
在建设区域工业云创新服务中心时,要依托大规模超级计算中心打造工业云(大数据)平台。超算中心是为工业、商业、政府决策支持等领域的计算密集型应用和数据密集型应用提供快速、精确处理能力的数据平台,与云计算中心相比,其服务的本质都是提供计算服务能力和数据处理服务能力。千万亿次以下的超算中心在我国已建成很多,在2015年11月发布的中国最快性能超级计算机TOP100排行榜上,入榜的超级计算机每秒浮点运算性能全部超过300万亿次。2015年11月发布的全球最快性能超级计算机TOP500排行榜中,全球21.8%的最快性能超级计算机(共109台)安装在中国,居世界第二。当前我国拥有千万亿次以上计算能力的超算中心有10家以上,如:广州超算中心、天津超算中心、深圳超算中心、济南超算中心、长沙超算中心等等。预期到2017年我国将有15家以上千万亿次规模的超级计算中心。虽然广州超算中心的“天河2号”超级计算机在去年11月发布的全球最快性能超级计算机TOP500排行榜上以每秒33.86千万亿次的浮点运算速度第六次夺冠,但我国超级计算的发展依然面临缺乏统一的规划和功能定位、交叉领域的专业技术团队严重缺失、行业应用软件依赖国外严重、超级计算机应用效率低下等问题。如何规划和高效利用大规模超算中心,让其渗透和扩散到行业创新的方方面面,是当前需高度重视的问题。
随着虚拟化技术的发展、通信延迟的降低以及高性能计算应用类型和需求的多样性、广泛性,高性能计算云(High-performance Computing Cloud)以其较小的性能开销、灵活自主的管理服务模式逐渐成为超级计算的主流服务模式。以云计算的理念运营超级计算中心是一个重要的发展趋势。2015年10月,美国发布《美国创新战略》,该战略明确提出需保持美国在高性能计算领域的领先地位,政府机构将与计算机生产商和云供应商合作,令高性能计算资源更容易为人们所获得。在工业云未来的发展中,需进一步依托大规模超级计算中心建设区域工业云(大数据)创新服务中心,一方面,能基于云计算方式有效整合当前闲置的大规模超级计算中心资源;另一方面,也能够提供工业应用重大工程问题求解能力和大规模海量数据挖掘能力的支撑,并能承载培养和储备跨学科交叉领域高端专业人才的重任。
产业结构的调整优化和经济效率的提升是当下推动我国经济发展的本质。工业云和工业大数据,作为生产性服务业,其本质是基于技术创新,通过生产要素使用效率的提升来提高资源配置的效率,从而推动工业企业全要素生产率的提升,也即工业经济效率的提升。发展工业云(大数据)服务,是发展现代服务业,推动我国区域经济结构调整,提升我国产业结构高度的有效手段。
文章来源:网络
更多智道分享文章链接:http://bbs.imefuture.com/article/
 
764 浏览

分享一篇对大数据深度思考的文章

智能科技类 莲心 2016-05-19 17:38 发表了文章 来自相关话题

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。

如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。

怎样结构大数据?

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

1特征定义

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解,比如,

“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”

“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

2价值探讨

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析,存在三种模式:

手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:

拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;

还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。

现在和未来

我们先看看大数据在当下有怎样的杰出表现:

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;

大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;

大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;

大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;

大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。

其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”

Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:

医疗机构将实时的监测用户的身体健康状况;

教育机构更有针对的制定用户喜欢的教育培训计划;

服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;

社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;

政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;

金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;

道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;

当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。

大数据隐私

你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。

更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。

用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。

说到隐私被侵犯,爱德华?斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。

再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意用户搜索了。

因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……

专家给予了我们一些如何有效保护大数据背景下隐私权的建议:

减少信息的数字化;

隐私权立法;

数字隐私权基础设施(类似DRM数字版权管理);

人类改变认知(接受忽略过去);

创造良性的信息生态;

语境化。

但是这些都很难立即见效或者有实质性的改善。

比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。

当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。

在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”

和大数据相关的技术

云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。

业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

如果将云计算与大数据进行一些比较,最明显的区分在两个方面:

第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。

而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others

Hadoop用到的一些技术有:

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (HadoopDistributed File System)

MapReduce:并行计算框架

HBase: 类似Google BigTable的分布式NoSQL列数据库。

Hive:数据仓库工具,由Facebook贡献。

Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Pig:大数据分析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

说了这么多,举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

淘宝大数据

如上图所示,淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。

数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层。在这个计算层内,淘宝采用的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。

存储层。在这一层,淘宝采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。

查询层。在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。

最后一层是产品层,这个就不用解释了。

存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

提到存储,有一个着名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

以Amazon举例,Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。 此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。

除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。

其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

大数据的实践

互联网的大数据

互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

在信息技术更为发达的美国,除了行业知名的类似Google,Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:

Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

TellApart:TellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

DataSift:DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。

举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:

用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

用户消费数据(精准营销、信用记录分析、活动促销、理财等)

用户地理位置数据(O2O推广,商家推荐,交友推荐等)

互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

政府的大数据

近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054 个datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

企业的大数据

企业的CXO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

那么,哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1) 对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

然而,一直做企业服务的巨头将优势不在,不得不眼看新兴互联网企业加入战局,开启残酷竞争模式。为何会出现这种局面?从 IT 产业的发展来看,第一代 IT 巨头大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP这类传统 IT 企业;第二代 IT 巨头大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术,大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)

IBM大数据

另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品:HAVEn,一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普运营管理(HP OperationsManagement)四大技术组成。还支持Hadoop这样通用的技术。HAVEn不是一个软件平台,而是一个生态环境。四大组成部分满足不同的应用场景需要,Autonomy解决音视频识别的重要解决方案;Vertica解决数据处理的速度和效率的方案;ArcSight解决机器的记录信息处理,帮助企业获得更高安全级别的管理;运营管理解决的不仅仅是外部数据的处理,而是包括了IT基础设施产生的数据。

个人的大数据

个人的大数据这个概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

举个例子来说明会更清晰一些:

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。用户可以将其中的牙齿监测数据授权给XX牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对的制定和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮你制定合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有这么一些特性:

数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。

采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。

展望过于美好,也许实现个人数据中心将遥遥无期,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止数据个人中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:到底是数据重要还是隐私重要;是以商业为中心还是以个人为中心。
文章来源:网络
更多智造家智道分享:www.imefuture.com
 
 
  查看全部
在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。

如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。

怎样结构大数据?

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

1特征定义

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解,比如,

“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”

“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

2价值探讨

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析,存在三种模式:

手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:

拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;

还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。

现在和未来

我们先看看大数据在当下有怎样的杰出表现:

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;

大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;

大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;

大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;

大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。

其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”

Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:

医疗机构将实时的监测用户的身体健康状况;

教育机构更有针对的制定用户喜欢的教育培训计划;

服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;

社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;

政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;

金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;

道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;

当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。

大数据隐私

你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。

更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。

用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。

说到隐私被侵犯,爱德华?斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。

再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意用户搜索了。

因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……

专家给予了我们一些如何有效保护大数据背景下隐私权的建议:

减少信息的数字化;

隐私权立法;

数字隐私权基础设施(类似DRM数字版权管理);

人类改变认知(接受忽略过去);

创造良性的信息生态;

语境化。

但是这些都很难立即见效或者有实质性的改善。

比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。

当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。

在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”

和大数据相关的技术

云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。

如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。

业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢?

这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。

云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

如果将云计算与大数据进行一些比较,最明显的区分在两个方面:

第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。

而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others

Hadoop用到的一些技术有:

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (HadoopDistributed File System)

MapReduce:并行计算框架

HBase: 类似Google BigTable的分布式NoSQL列数据库。

Hive:数据仓库工具,由Facebook贡献。

Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Pig:大数据分析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

说了这么多,举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

淘宝大数据

如上图所示,淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。

数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层。在这个计算层内,淘宝采用的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。

存储层。在这一层,淘宝采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。

查询层。在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。

最后一层是产品层,这个就不用解释了。

存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

提到存储,有一个着名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。

以Amazon举例,Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。 此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。

S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。

感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。

除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。

其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”

大数据的实践

互联网的大数据

互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

在信息技术更为发达的美国,除了行业知名的类似Google,Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:

Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。

Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

TellApart:TellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。

DataSift:DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。

举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:

用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)

用户消费数据(精准营销、信用记录分析、活动促销、理财等)

用户地理位置数据(O2O推广,商家推荐,交友推荐等)

互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)

用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)

政府的大数据

近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054 个datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

企业的大数据

企业的CXO们最关注的还是报表曲线的背后能有怎样的信息,他该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

那么,哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1) 对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说的:“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

然而,一直做企业服务的巨头将优势不在,不得不眼看新兴互联网企业加入战局,开启残酷竞争模式。为何会出现这种局面?从 IT 产业的发展来看,第一代 IT 巨头大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP这类传统 IT 企业;第二代 IT 巨头大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务,直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术,大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM举例,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)

IBM大数据

另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品:HAVEn,一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普运营管理(HP OperationsManagement)四大技术组成。还支持Hadoop这样通用的技术。HAVEn不是一个软件平台,而是一个生态环境。四大组成部分满足不同的应用场景需要,Autonomy解决音视频识别的重要解决方案;Vertica解决数据处理的速度和效率的方案;ArcSight解决机器的记录信息处理,帮助企业获得更高安全级别的管理;运营管理解决的不仅仅是外部数据的处理,而是包括了IT基础设施产生的数据。

个人的大数据

个人的大数据这个概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

举个例子来说明会更清晰一些:

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,比如,牙齿监控数据,心率数据,体温数据,视力数据,记忆能力,地理位置信息,社会关系数据,运动数据,饮食数据,购物数据等等。用户可以将其中的牙齿监测数据授权给XX牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划;也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对的制定和调整个人的运动计划;还可以将个人的消费数据授权给金融理财机构,由他们帮你制定合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有这么一些特性:

数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受用后即焚的监管。

采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

数据的使用将只能由用户进行授权,数据中心可帮助监控个人数据的整个生命周期。

展望过于美好,也许实现个人数据中心将遥遥无期,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止数据个人中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:到底是数据重要还是隐私重要;是以商业为中心还是以个人为中心。
文章来源:网络
更多智造家智道分享:www.imefuture.com
 
 
 
415 浏览

云管理成功的关键:应用工作流

管理类 将计就计 2016-04-25 16:31 发表了文章 来自相关话题

IT环境管理的目标就是要确保云应用的运行性能和系统可靠性达到一个最佳水平。在云计算中,应用与固定资源是相互隔离的,这就意味着负责云管理的IT管理人员必须对应用的工作流和资源进行并行管理。

为了简化云管理,首先应从用户的云应用入手。这样做可以让用户确定应用的响应时间,并确定可支持用户应用运行的资源。用户可以通过熟悉的应用工作流管理和集成工具来完成这些任务,而这些工具主要来自于各大IT厂商,如IBM、惠普企业以及微软等公司。
然后,使用在用户操作系统(OS)和中间件中可用的统计工具深挖每个云应用程序资源中的数据。针对用户私有云资源可以配合使用数据中心管理工具,而对于用户的公共云资源则可组合使用公共云管理工具。如果用户的数据中心托管了一个私有云,那么随着市场向混合云方向发展可考虑使用一个能够同时处理公共云和私有云的云管理工具。

如果管理人员把应用工作流视作一个端到端的流程,那么它可帮助他们确定应用的响应时间,这是云计算管理的起点。如果他们将其视为一系列步骤,那么工作流可帮助管理人员确定导致延迟或中断处理的组件。云应用工作流组件就是拥有各自统计数据(例如性能、状态和数据包丢失)和相关操作系统与中间件统计数据的应用部分,它们能够帮助识别问题。访问这些统计数据的工具可用于大多数基于虚拟机的云平台,并且还有来自于中间件的管理接口,所以用户可以由这些工具开始。

如果用户使用了多个操作系统和中间件平台,那么用户的云管理模式将要复杂得多。但还是有一些可用工具的,例如NodePrime就可以为一个复杂数据中心创建统一视图。

选择云管理工具的考虑因素

即使用户能够从机器镜像操作系统和中间件中获取管理数据,用户仍需要使用来自于云供应商的管理数据来对其进行补充。所有的公共云供应商都为基本部署和健康监测提供了管理应用编程接口(API),其中有一些厂商(其中包括亚马逊、IBM、微软以及Salesforce)则提供了一套完整的云管理工具套件。

高功能云管理工具通常能够解决伴随云而产生的技术问题和性能复杂性。由于众多企业用户最终将转向使用混合云,所以用户应当在所有评估的云管理工具中寻找具有混合云管理功能的工具。

大多数云管理工具都能够帮助企业用户基于他们的特定操作系统、中间件、云平台和网络管理API开发一个单一用户和应用的接口。除了这个基本模式,众多工具还各有侧重点,例如Scalr为多云计算环境提供了基于策略的生命周期管理和自动化功能。RightScale则是另一个采用自上而下基于角色方法的工具,被称为云产品组合管理。

云管理之路通往开发运营

简化的云管理模式是开发运营(DevOps)的方便跳点。它能够帮助用户使用特定资源的开发运营工具,并在工作流层次将其集成。如果用户希望在多个环境中运行他们的应用程序(例如在数据中心和跨多个云平台),那么应当试图不要针对每一个环境使用不同的开发运营工具,因为那样做会让生命周期管理变得极为复杂。相反,可考虑使用与用户不同IT环境集成的单一开发运营工具。
云管理战略是一个随应用开始、自上而下的流程,因为他们体现了企业的目标。分不同层次规划实施,投入最大量资金人员到最接近企业的层次以实施一个最优化的云计算管理战略。 查看全部
IT环境管理的目标就是要确保云应用的运行性能和系统可靠性达到一个最佳水平。在云计算中,应用与固定资源是相互隔离的,这就意味着负责云管理的IT管理人员必须对应用的工作流和资源进行并行管理。

为了简化云管理,首先应从用户的云应用入手。这样做可以让用户确定应用的响应时间,并确定可支持用户应用运行的资源。用户可以通过熟悉的应用工作流管理和集成工具来完成这些任务,而这些工具主要来自于各大IT厂商,如IBM、惠普企业以及微软等公司。
然后,使用在用户操作系统(OS)和中间件中可用的统计工具深挖每个云应用程序资源中的数据。针对用户私有云资源可以配合使用数据中心管理工具,而对于用户的公共云资源则可组合使用公共云管理工具。如果用户的数据中心托管了一个私有云,那么随着市场向混合云方向发展可考虑使用一个能够同时处理公共云和私有云的云管理工具。

如果管理人员把应用工作流视作一个端到端的流程,那么它可帮助他们确定应用的响应时间,这是云计算管理的起点。如果他们将其视为一系列步骤,那么工作流可帮助管理人员确定导致延迟或中断处理的组件。云应用工作流组件就是拥有各自统计数据(例如性能、状态和数据包丢失)和相关操作系统与中间件统计数据的应用部分,它们能够帮助识别问题。访问这些统计数据的工具可用于大多数基于虚拟机的云平台,并且还有来自于中间件的管理接口,所以用户可以由这些工具开始。

如果用户使用了多个操作系统和中间件平台,那么用户的云管理模式将要复杂得多。但还是有一些可用工具的,例如NodePrime就可以为一个复杂数据中心创建统一视图。

选择云管理工具的考虑因素

即使用户能够从机器镜像操作系统和中间件中获取管理数据,用户仍需要使用来自于云供应商的管理数据来对其进行补充。所有的公共云供应商都为基本部署和健康监测提供了管理应用编程接口(API),其中有一些厂商(其中包括亚马逊、IBM、微软以及Salesforce)则提供了一套完整的云管理工具套件。

高功能云管理工具通常能够解决伴随云而产生的技术问题和性能复杂性。由于众多企业用户最终将转向使用混合云,所以用户应当在所有评估的云管理工具中寻找具有混合云管理功能的工具。

大多数云管理工具都能够帮助企业用户基于他们的特定操作系统、中间件、云平台和网络管理API开发一个单一用户和应用的接口。除了这个基本模式,众多工具还各有侧重点,例如Scalr为多云计算环境提供了基于策略的生命周期管理和自动化功能。RightScale则是另一个采用自上而下基于角色方法的工具,被称为云产品组合管理。

云管理之路通往开发运营

简化的云管理模式是开发运营(DevOps)的方便跳点。它能够帮助用户使用特定资源的开发运营工具,并在工作流层次将其集成。如果用户希望在多个环境中运行他们的应用程序(例如在数据中心和跨多个云平台),那么应当试图不要针对每一个环境使用不同的开发运营工具,因为那样做会让生命周期管理变得极为复杂。相反,可考虑使用与用户不同IT环境集成的单一开发运营工具。
云管理战略是一个随应用开始、自上而下的流程,因为他们体现了企业的目标。分不同层次规划实施,投入最大量资金人员到最接近企业的层次以实施一个最优化的云计算管理战略。