华为云数据库,数智跃升,构筑数据产业发展新引擎
华为云数据库军团总裁
李世豪
尊敬的各位嘉宾各位领导下午好,今天非常荣幸分享一下华为云数据库在大数据产业线,我们的一些思考和实践。
每一个做应用开发的都希望打造一个超级APP,应该说DeepSeek是最成功的超级APP。春节的5天10倍流量增长,这泼天的流量,数据架构能不能扛得住?这是DeepSeek整个数据库跑在华为云上,传统的数据架构是无法支撑这么大的流量,那我们这里面做了两件事。
一是基于存算分离架构,可以做到秒级的数据库实力扩展,可以确保它的岗位不中断。二是由原来传统的集中式架构逐步改成分布式。因为我们知道传统的集中式处理能力受限,单库只能做到四个T,但是像DeepSeek春节期间流量可能会超过40多个T。这种数据架构下,单体数据库就搞不定,就需要具备横向扩展能力,这是AI时代可能下一个爆款应用,有可能就是在座各位同行开发的应用。那数据架构选择怎么来选。
开源软件应该说极大地促进了软件产业发展,但是最近中美冲突愈演愈烈。从软件产业也看到了加剧的形势,一是安卓开始闭源了,只有基于它GMS应用的才能享受最新服务。如果没有基于GMS服务的,相当于它的代码不再开源。包括GitHub全球代码商,也对中国用户有段时间无法访问。很多开源协议修改了。这里大家感受估计不深,但是一旦供应安全发生危险的话,大家的系统可能就不可靠。从原来完全开源的协议,改成了SPL,包括MongoDB包括Redis都改成了SSPL的协议。这个协议是要求你只要引用了,我们的应用就要完成开源,所以这是存在供应风险的。
现在数据库的开源软件领域已经是正在发生的事情,就是它的部分安全漏洞是受限发布,所以你不知道你引用的开源软件是不是有漏洞。只有等到引爆那一天才知道,但是到那个时候就晚了,所以这是我们看到的两个新的变化。基于这两个新的变化,华为对整个数据库的理解存在四个方面,第一个从部署形态怎么样更灵活,第二个从原有传统的集中式怎么向分布式数据库演进,第三个是智能化,第四个是安全可靠。下面会每一块打开来讲。
现在大量的线下数据库都是基于单机部署的,就是一台物理机一套数据库,资源又浪费,系统又不可靠。而且一旦我这台物理机发生了故障,你的数据就会丢了。现在我们是把容器技术相当于下沉到数据库里,也就是我在具备两台服务器就能部署起来一朵云。部署起来这朵云的价值是什么?我们大部分应用可能用8BCPU、16BCPU算力资源就够了。
也就是以前独占一台服务器的数据库资源,现在一台服务器可以跑5套数据库。按照8B就变成40倍,或者16BCPU也就是80倍。现在物理核数越来越多了。所以这是第一个能把计算资源虚拟化出来一套变5套,第二个单机变集群。因为你有了云的技术,就可以把组备的模式部署进来。因为传统物理机要部署配备两台服务器,确实对投资会有浪费。
基于云的技术只要用8BCPU做数据备份这样能做到RPU等于零,哪怕发生了断电,物理服务器的故障,你的数据也不会丢。
基于云的技术的隔离,相比于传统逻辑隔离,它是做到物理隔离。不管是一台服务器上跑的5套数据库,任何一套数据库发生故障还是版本升级或者资源弹性都不会互相抢占,相当于真正做到了物理隔离,所以有更多的业务体验。
前面讲到分布式数据库,我们知道它原有能力可能基于rig技术横向扩展到四个节点,再想横向扩展性能也达不到了。
像DeepSeek的应用,甚至是不用DeepSeek我们统计局、人社局、财政局,这些只要基于大数据量的处理的架构,集中式的架构满足不了。第二个还有大量的一体机的场景,现在先进算力不可得的情况下只能以软补硬。通过多台服务器达到一台小机处理性能,这个都需要上乘的数据库软件做分布式改造。
目前华为的GaussDB最大能支持256,最大存储量一个集群能做到4PB,基本能类似于DeepSeek的应用,有爆发式的增长,相当于数据处理也都能扛得住。
做数据库或者当前AI时代不得不讲数据库和AI的结合。GaussDB是天然支持相量引擎。最大特点是:
第一,向标混合。开源的向量引擎只能做向量计算。但是我们本身基于标量计算,这里就和向量结合类似于小红要找一个红鞋子的品牌有哪些。这种检索,你需要结合我的标量和向量检索。GaussDB在这里能发挥它原有的向量优势,标量优势,能做到检索时延最低。
第二,构建速度最快。基本做到T+0,把数据库就能建立起来。现在有很多信息结合本地知识库都要第二天能查到前一天最新知识。所以这是我们与向量的结合。
我们与运维场景的应用。因为数据库承载的都是最核心的系统,这些系统的运维,过去大量依靠DBA经验,俗话说是老中医。现在把DBA经验沉淀到Gauss智能助手,当然也是基于大模型技术。这样简单的做知识问答能力,现在准确率能达到90%,第二天数据库运维场景下,最主要的问题是慢车口诊断,过去这个问题客观来讲没有很好的解决办法,因为你自己开发的应用,基本识别不出来,或者说总会有遗漏这种语法。基于AI技术我们做到内核里,可以主动识别哪些没有加索引,这样可以大大提升业务可靠性。
给大家分享数据库的黑匣子。前段时间哈尔滨也通报亚冬会一个网络攻击,大家看到的是贸易战,但是网络战早就打响了。我们看到中国数据库每天都会有140万次攻击,这里面催生一个产业就是勒索。甚至我们有一个非常大的企业,就是因为数据被锁住了,被勒索2000万美元。你还不得不交,因为你那段时间数据没有保存下来的话,损失会更大。第三点是对业务的中断。GaussDB我们结合软硬协同的优势,把可信的计算环境和加密存储实时把生产数据实时写一份到加密存储里。这个加密存储说白了只能写不能改。所以一旦生产库被锁住以后,可以从加密存储里恢复回来,这样就可以做到数据不会被勒索。
前面讲到了安全,最后分享一下GaussDB对大家来讲就是信创的数据库,现在有28款。我相信会后能够持续领先的,真正走得下去的,估计国内有2-3款就差不多了。对大家来讲怎么选择一个能满足我们业务需求又能持续演进的数据库。GaussDB一是集中式、分布式都通过了信创目录。二是集中式场景下,我们是唯一的信创二级。就是说在极限的供应欢迎下,GaussDB也能确保我们的供应连续性,不会被卡脖子。
生态的兼容性,我们能做到100%兼容客户应用,一行代码不用改,只要做一个性能验证就可以了。Oracile我们的兼容性也是最佳的,当然因为Oracile本身还有存储过程,这个地方包含了一些业务代码,我们业务工具去做评估,所以生态最优,技术路线也是全覆盖。
最后也分享一下全行业的实践。在工行已经有80%的应用全部在GaussDB上。在证券、保险包括城商农信还有99家央国企,包括中海油,国家电网,国家统计局都部署在华为的高斯上。
分享一个案例我们自己的应用,我们区别于别的数据库厂家在于我们自己要用。不管客户选不选择GaussDB,最终我们自己都要做数据库。现在我们运营商业务,包括各位可能用了华为手机,我们终端云上的业务,包括ERP还有财经业务全部都切到GaussDB。而且当前这种竞争环境下,我们的业务运行也非常稳定。
后面两个案例时间关系不展开了,一是国家统计局,我们支撑第五次经济人口普查和每季度的企业联网直报,这个性能压力非常大,有160万企业,每季度要做一次财务数据的申报,峰值的QPS达到77000。
二是工行两千万的存储过程,全国通过内核的兼容性适配,就能把它整个搬到GaussDB上。
我的分享就到这里,欢迎各位专家领导指正,谢谢大家。
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面
