在和国内外顶尖公司交流的过程中,我发现他们多数都很骄傲有一支极其专业的数据团队。这些公司花了大量的时间和精力把数据工程这件事情做到了极致,有不小规模的工程师团队,开源了大量数据技术。Linkedin 有 kafka, samza, Facebook 有 hive, presto, Airbnb有airflow, superset,我所熟悉的 Yelp 也有 mrjob…… 这些公司在数据领域的精益求精,为后来的大步前进奠定了基石。

今天推荐的这篇文章《美国数据工程现状》,从多个维度阐释了数据工程和数据工程师在美国的发展状况。或许你和我一样,都会有一些意想不到的发现。

我常觉得数据工程之于企业的意义,就好像马斯洛需求理论之于人的意义,从低到高进阶满足,企业对于数据工程的应用应该遵循这个三角原则。
第一层,企业要注意到公司发展过程中,最普世最基础的需求:即让数据可见可得。这需要我们重视数据工程这件事,这是企业做大做强安身立命的根本;

第二层,进阶需求。有了数据意识,招来了数据工程师,拉开架势开始干吧。这时候企业就需要开始从语义(semantic)的角度去理解跑起来的数据流了。实现从数据到企业战略指导再回到数据;

第三层,是目前看起来最接近塔尖也是最高级的需求:即建模、更完善的预测性算法、更漂亮的数据可视化、深度学习、AI 等等……

这些更高级的更贴近金字塔尖,也是现在创业的风口。我偶尔也会被风吹的精神抖擞,但吹完风,静下来想想,一个企业没有好的数据工程、数据基础架构逻辑、没有构建数据流的能力,这些金塔尖上的需求是非常难被满足的,很难取得好的结果,也无法实现真正的价值。

是的,我又被风打下来了,开始站在地上思考问题了。

当然,对于创业公司来说,打造完整的数据工程、严密数据架构、高效的数据流是件 “正确但不容易的事情”。不好做、效果不直观,但很重要。

最后,我想引用 Kafka 技术的缔造者 (Kafka,被誉为 LinkedIn 的 “中枢神经系统”),现 Confluent 的 CEO Jay Kreps 的一句话:Without a reliable and complete data flow, a Hadoop cluster is little more than a very expensive and difficult-to-assemble space heater。如果你的公司没有一个完整可靠的数据流,那么你的 Hadoop 集群其实就像非常贵而且很难组装的暖气片而已。
 
 
物联网的开源操作系统怎么用?
为什么我们用的是交流电不是直流电?
业务繁忙,但是老板说没钱,工资都不能及时发放,真的是没钱?