5月6日,由国家金融与发展实验室金融科技研究中心学术指导,北京立言金融与发展研究院、神州控股、XPJ、神州数码集团共同主办的2023数云原力大会“数据资产•金融核心竞争力”主题论坛在京盛大举办。
作为全球金融科技大会系列论坛之一,本次活动大咖云集。数据仓库之父、Databricks独立董事Bill Inmon线上带来主旨演讲:《Lakehouse技术展望》。
公司的数据一般有三种类型:结构化数据、文本数据和模拟/物联网数据。这些都是可用于做出商业决策的数据。
结构化数据大多数是业务运营的基础数据。文本数据则贯穿于公司的方方面面,可惜的是,几乎没人会利用它们。首先,文本数据可能以多种语言的书面或口头形式存在,像英语、西班牙语、中文、葡萄牙语等等。其次,文本数据有不同的形式:有正式用语,还有俚语、缩略词以及其他形式的语言。此外,文本数据可能出现在很多场景,例如录音中,书本上,还可以在互联网和视频中。各种地方都可以找到文本数据。文本 ETL技术能够读取文本数据后转化为数据库可识别的格式。不利用文本 ETL 技术,就没法对文本数据进行分析。第三种类型的数据就是机器生成的数据。
你会发现,只有一部分数据有意义。过去,把数据扔进数据湖就好,结果它变成了沼泽。怎样把沼泽变成有用的东西呢?我们首先需要具备分析型的基础架构,其次需要给数据湖加载集成整合后的数据。为了帮助数据科学家产出效益,我们需要将数据湖转换成数据湖仓。
分析型基础架构有很多组件,比如元数据,对结构化数据很有用;对于文本数据,有本体论和分类法;对于模拟/物联网数据,有提炼算法等等。这些组件会使数据湖仓的管理运营工作更加高效。
文本 ETL 能够将文本转换成能够分析的格式,然后放入数据湖仓;模拟/物联网数据通过提炼,从中挑出有用的也放进数据湖仓;原始格式的文本无法进行分析,必须将文本转换为标准数据库的格式;再把机器生成的数据分离成访问概率高的数据和访问概率低的数据,这样整个分析过程就不会被没必要的数据所淹没。
一般来说,文本数据的数据量远远多于结构化数据,而机器生成的数据又远远多过文本数据。它们的商业价值也不相同,结构化数据大多有较高的商业价值,文本数据有一部分会有较高商业价值,而机器生成的数据只有极少数有商业价值。
将具有高可用性和访问概率高的数据存放到高性能存储,而将访问概率不高的数据存放到大容量存储。当发现大容量存储中有想要用于分析处理的数据,只需要从大容量存储中把数据取出存放到高性能存储,以便分析。归档信息也是一样,将这些数据从高性能系统环境中移出,存放到大容量存储系统以便于归档。这样也方便数据科学家访问、使用高性能存储中的数据。
数据仓库和数据湖仓不是一回事,就基础架构而言,数据仓库和数据湖仓有关系,但并非同一种东西。而有了数据湖仓,就能更好地开展业务,让客户更加满意。
5月11日
“2023数云原力大会
——数字金融新征程论坛”
扫码预约注册