在和国内外顶尖公司交流的过程中，我发现他们多数都很骄傲有一支极其专业的数据团队。这些公司花了大量的时间和精力把数据工程这件事情做到了极致，有不小规模的工程师团队，开源了大量数据技术。Linkedin 有 kafka, samza, Facebook 有 hive, presto, Airbnb有airflow, superset，我所熟悉的 Yelp 也有 mrjob…… 这些公司在数据领域的精益求精，为后来的大步前进奠定了基石。

今天推荐的这篇文章《美国数据工程现状》，从多个维度阐释了数据工程和数据工程师在美国的发展状况。或许你和我一样，都会有一些意想不到的发现。

我常觉得数据工程之于企业的意义，就好像马斯洛需求理论之于人的意义，从低到高进阶满足，企业对于数据工程的应用应该遵循这个三角原则。
第一层，企业要注意到公司发展过程中，最普世最基础的需求：即让数据可见可得。这需要我们重视数据工程这件事，这是企业做大做强安身立命的根本；

第二层，进阶需求。有了数据意识，招来了数据工程师，拉开架势开始干吧。这时候企业就需要开始从语义（semantic）的角度去理解跑起来的数据流了。实现从数据到企业战略指导再回到数据；

第三层，是目前看起来最接近塔尖也是最高级的需求：即建模、更完善的预测性算法、更漂亮的数据可视化、深度学习、AI 等等……

这些更高级的更贴近金字塔尖，也是现在创业的风口。我偶尔也会被风吹的精神抖擞，但吹完风，静下来想想，一个企业没有好的数据工程、数据基础架构逻辑、没有构建数据流的能力，这些金塔尖上的需求是非常难被满足的，很难取得好的结果，也无法实现真正的价值。

是的，我又被风打下来了，开始站在地上思考问题了。

当然，对于创业公司来说，打造完整的数据工程、严密数据架构、高效的数据流是件 “正确但不容易的事情”。不好做、效果不直观，但很重要。

最后，我想引用 Kafka 技术的缔造者（Kafka，被誉为 LinkedIn 的 “中枢神经系统”），现 Confluent 的 CEO Jay Kreps 的一句话：Without a reliable and complete data flow, a Hadoop cluster is little more than a very expensive and difficult-to-assemble space heater。如果你的公司没有一个完整可靠的数据流，那么你的 Hadoop 集群其实就像非常贵而且很难组装的暖气片而已。

物联网的开源操作系统怎么用？
为什么我们用的是交流电不是直流电？
业务繁忙，但是老板说没钱，工资都不能及时发放，真的是没钱？

深扒一个独角兽公司标配，但仍被低估的岗位

作者相关

王五#1556

0 个评论

写评论

相关问题

相关标签