“国内大数据正在从萌芽迈向成熟,各行各业对于数据仓库的依赖程度和重视程度也在逐步提高。”肖冠宇对记者说——作为大数据技术领域的专家,他比任何人都清楚地感受到了该领域在国内的变化。
数据显示,在过去的几年时间里,我国大数据市场规模从 2019 年的 619.7 亿元增长到了 2021 年的 863.1 亿元,复合年增长率达到 18.0%,发展势头强劲。
而国内的数据仓库行业虽然起步较晚,在市场规模、市场份额、产品技术和应用方面都有很大的成长空间,但也随着大数据领域的迅速发展和普惠化,各方面趋于稳定成熟。
5G时代来临后,数据仓库更是帮助用户解决了数据量大、数据类型复杂、数据价值深入挖掘等实际场景问题,也因此备受国内企业关注,不仅电信、金融、保险等传统数据密集型企业开建数据仓库,国内的零售企业、制造企业也开始有了这方面的需求。
但仍然有很多人对数据仓库的发展现状不够了解。有人认为数据仓库是个非常大的数据库,有人认为数据仓库的建设是一次性工程,也有人觉得数据仓库是将所有的业务数据存在一起的。
“事实上,数据仓库并不等同于数据库,二者的应用场景不同,”肖冠宇说,“数据库主要是面向线上产品功能进行日常的事务处理。数据仓库是面向主题集成的,对历史多种类型数据进行分析,助力企业业务发展,支持企业决策。”
为了行业可以更好发展,肖冠宇希望更多的人可以了解数据仓库,更多的企业可以应用数据仓库,“对行业来说,更多的了解可能会产生更多的需求,而更大的需求也会成为发展的原动力。”
专注数据仓库建设、深耕大数据领域十年、曾出版《企业大数据处理》《Python3快速入门与实战》等书的大数据技术专家肖冠宇,向我们分享关于国内数据仓库的二三事。
肖冠宇介绍自己,截至今年,从事软件开发、大数据相关的工作已经有十年的时间了。“最初我是在一家电信行业的技术服务公司做软件开发,2013年开始,大数据在国内进入了快速发展期,我也因此接触到了大数据相关的工作,我发现大数据可以给我们的生活带来很多便利,但国内当时的大数据研究并不充分,还有很大的发展空间。意识到这一点后,我就深扎大数据领域,开始跟进大数据、数据仓库方面的工作,并且也取得了一些成就。此外,在2017年年底,我还加入一家正在创业的公司,做大数据人工智能的在线教育。”
谈到当初缘何接触到数据仓库,肖冠宇说,“我从事数据仓库的研发工作也有七年了。最初接触数据仓库就是因为当时的公司是要求我去做大数据平台的相关工作,再加上我本身也对这部分内容很感兴趣,就转到了大数据方向的技术研究和大数据平台的搭建。”
后来,随着公司的数据量越来越大,业务也变得越来越复杂,针对多复杂场景的数据分析、多维分析和数据挖掘的需求越来越强烈,于是肖冠宇就转到了大数据和数据仓库这个方向,研究基于大数据技术的数据仓库解决方案。“我们最早以 Hadoop、Hive、Spark 等开源技术方案搭建公司内部的数据仓库,后来采用公司自研大数据产品进行数据仓库和数据湖的建设。”
被问及在数据仓库的建设过程中是否遇到过困难,肖冠宇介绍自己目前主要从事公司内部数据仓库建设的工作,负责公司内部海量数据的处理、管理、统计分析、治理等。海量数据存储和计算优化,多复杂场景的数据治理、高效应用、数据价值的挖掘是工作中的主要研究内容。
肖冠宇说,“数据仓库建设过程中遇到的难点还是很多的。因为大数据最初在国内技术有限,应用场景也非常模糊,在国内能完成落地的场景更是少之又少,这就导致我们缺少一些有效的案例作参考,所以我们只能从头开始进行研究,摸着石头过河,从底层大数据技术开始研究,这个过程相对来说是比较痛苦的,除了身体上的疲劳外,高难度的工作也会带来精神上的紧绷。”
好在这些付出都得到了回应,现在国内的大数据技术已经非常成熟了,大数据也广泛地应用在了我们生活的各方各面,肖冠宇介绍,比如说我们在购物网站经常看到一些根据你的浏览历史猜出你想要购买的商品;短视频网站也会根据你的喜好去推荐视频;出行时,健康码、行程码、场所码更是发挥了重要的作用。
谈到数据仓库在企业中的应用以及数据仓库的价值,肖冠宇说,“在谈数据仓库的价值之前要先了解下数据仓库的特点,被誉为数据仓库之父的美国计算机科学家William Inmon 定义了数据仓库的四大特征,数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的。”
数据仓库可以将不同来源的各种数据集成到一起,数据进入数据仓库后,通常不会发生变化,随着历史数据的积累,通过数据仓库可以针对特定主题或领域进行历史数据分析和商业洞察。
也就是说,企业可以通过数据仓库整合不同场景来源的海量数据,使用基于大数据技术的数据仓库的强大分析能力从多个维度分析、挖掘数据价值,从数据中获得宝贵的业务洞察,帮助自身做出正确的商业决策。
肖冠宇继续分享,“同时,企业中的人工智能专家、数据科学家们还可以使用数据仓库高效分析大量不同的数据,挖掘出更多高价值业务特征,提高算法模型的预测能力,有利于企业对未来业务发展预测做出更准确的判断。”
在大数据时代,数据是企业的核心资产,因此数据的安全性至关重要。对于“为了保障数据安全,数据仓库在建设过程中应该如何规避风险”这个问题,肖冠宇说,“安全性是重中之重,在数据仓库的建设中,团队会始终将其放在第一位。”
当前,肖冠宇团队主要通过数据脱敏、加密、设置数据安全级别分级管理来有效保证数据的安全,通过严格的权限管理机制,按照数据最小化权限原则,针对特定分析场景,控制不同安全级别数据的访问权限。
此外,在管理层面,团队施行审批责任到人、谁审批谁负责的规定,结合数据血缘管理,做到数据权限审批可追溯,数据使用可追溯。
被问到数据仓库产品未来的方向,肖冠宇介绍道,“云上湖仓一体的解决方案可能是未来数据仓库产品发展的一个大方向。很多企业可能还不知道,现在数据上云非常方便,云服务厂商有很强的技术和资源优势,可以有效降低数据存储、管理、分析和治理成本,数据湖和数据仓库已经没有明显的边界了,两者之间的差异在将来可能会越来越模糊,湖仓一体的解决方案会将数据湖的灵活性与数据仓库的安全性、成熟的分层管理和完善的血缘体系结合在一起,大大降低企业对海量数据的存储和治理成本,提高多场景复杂分析能力,挖掘出数据更多价值,为企业降本增效。”
肖冠宇曾于2017年出版《企业大数据处理》一书,五年过去了,他有出版新书的计划。对此,肖冠宇介绍,“随着大数据在生活中被越来越广泛地应用,我也想要再出一本数据仓库、数据湖方向的书,向大众介绍数据仓库、数据湖目前的建设情况以及建设方向,让更多的人去了解相关内容以及我们团队已经落地的技术方案。对行业来说,更多的了解可能会产生更多的需求,而更大的需求也会成为发展的原动力。”
【广告】