國產數據庫行業,從未像今天這樣熱鬧。
螞蟻集團自主研發的分布式數據庫 OceanBase 宣布正式開源,并成立 OceanBase 開源社區,社區官網同步上線,300 萬行核心代碼向社區開放。就在幾天前,阿里云也對外宣布開源了 PolarDB for PostgreSQL。
而在之前,騰訊云發布首款全自研分布式分析型數據庫 TDSQL-A;國產數據庫廠商 PingCAP 也發布了 TiDB 5.0 版本……
成型于上個世紀 80 年代,數據庫是計算機領域三大基礎軟件系統之一。早期的關系型數據庫以甲骨文數據庫為代表,取得了巨大的商業成功。后來出現了 MySQL、PostgreSQL 等開源的關系型數據庫。
作為基礎性軟件以及企業 IT 系統的關鍵支撐產品,數據庫具有牽一發而動全身的特性。
你可能想不到的是,就是這樣一個重要的技術,在 2014 年以前,全球數據庫市場份額名單中,幾乎找不到中國廠商的身影。
如今,隨著眾多企業入局,國產數據庫正在打著一場激烈的翻身仗,在此背景下,國產數據庫如何崛起?如何抓住歷史的機遇,掌握自己的命脈?成為當前數據庫從業者所要思考的問題。
國產數據庫不應該只想著替代
最近幾年,國產數據庫在替代潮流中看到了機遇,無論是互聯網陣營的阿里、騰訊,通信廠商華為、中興,還是達夢、人大金倉等老牌國產數據庫,都把主戰場放在了“去 O”的存量替代領域,幾乎所有的國產數據庫都把金融行業的國產化作為最重要的戰場,從大型銀行、中小城商行、保險公司、證券基金公司,過去幾年國產數據庫掀起了一個“替代”潮。
這也讓筆者想到了剛接觸數據庫行業時的一個困惑:為什么數據庫廠商都喜歡分享自己的數據庫產品如何通過測試,最終替換 Oracle 等傳統數據庫的故事。
后來一些行業從業者對筆者答疑表示,金融行業對于數據庫的要求是最高的,可用性要達到 99.999%,這意味著,全年數據庫發生故障的時間不可以超過 5 分鐘。
而這個要求說白了就是數據庫產品要具有高穩定性、強容錯性和高安全性。
也正是由于這個原因,取代 Oracle(去 O)等傳統數據庫成為了多數國產數據庫時至今日的奮斗目標。
對此,我們不禁提出了疑問,國產數據庫的目標難道只是要替代 Oracle 等傳統數據庫,換句話來說,我們取代了 Oracle 等傳統數據,就代表著我們的數據庫產品就已經超越了他們了嘛?
答案當然是否定的。
從 Gartner、DB-Engines 等研究機構最新的報告中不難發現,數據庫市場正在出現一個新的趨勢:以 Oracle、DB2 和 Microsoft SQL Server 三大巨頭為代表的傳統商業數據庫的市場份額不斷下降,而開源數據庫和云第三方數據庫市場在持續增長。
在這個背后,是數字化轉型的浪潮向前涌進。據知名咨詢機構統計,到 2025 年全球數據總量將超過 160ZB,全球數據總量的近 20% 將成為影響日常生活的關鍵數據,近 10% 將變為超關鍵數據。
伴隨這個而來的,除了對數據庫有不變的高穩定性、強容錯性和高安全性之外,企業在數字化時代又提出了海量,實時、在線的數據分析的能力,這些反而是傳統數據庫不擅長的。
因此,這對于那些只將目標瞄在替代 Oracle 等傳統數據庫的國產數據庫廠商來說,面對當前數字化轉型浪潮下的海量、實時、在線的數據分析的能力則有所欠缺。
數字化暴漲的海量、實時、在線需求,最終落在了分布式數據庫和大數據技術棧的肩頭上,中長期看又以各種云服務模式的部署為主流。“開源、融合、云化”成為破解數字化時代數據需求的三大法寶。
因此,以后當企業用戶提出:你的產品是否有應用在大型互聯網公司核心交易系統中嘛?又該如何做解?
開源將成國產數據庫重頭戲
就在最近幾天,阿里云的 PolarDB 和螞蟻的 OceanBase 相繼宣布開源,加上作為先行者的 TiDB,中國數據庫第一集團的 TOP ( TiDB,Oceanbase, PolarDB) 都將開源作為戰略選擇,在業內引發了巨大的討論。“開源的拐點到了”、“開源成為新一代數據庫的主流選擇”,有的人甚至因此發問:開源會改變世界嗎?
對于這個問題,實在難以找到答案。
但我們可以預見的是,開源將加速成為中國未來發展基礎軟硬件技術的關鍵路徑。
就在今年 3 月,開源正式被列入十四五規劃發展綱要,在數字經濟加速發展的大背景下,中國未來五年會“支持數字技術開源社區等創新聯合體發展,完善開源知識產權和法律體系,鼓勵企業開放軟件源代碼,硬件設計與應用服務”。
而從全球范圍來看,開源也正在成為引領基礎軟件發展的決定性力量,以全球數據庫產品為例,2021 年 1 月,開源數據庫首次超過商業數據庫,代表著開源數據庫已經成為支持數字技術創新和數字經濟發展的重要支撐力量。
除此之外,開源也正從互聯網公司逐步擴展到了大型企業其他企業中,如戴姆勒集團 CIO 堅定把“開源優先”作為推動創新變革五大舉措中的首要舉措,可以預見,“開源優先”未來十年不只是互聯網公司的專利,也將成為所有企業,所有公共機構未來十年的重要趨勢。
在全球科技領域,開源軟件成為吸引最牛開發者的法寶,開源軟件更酷、更快、更領先的特質吸引著新一代開發者,成為企業獲取”工程師紅利“的關鍵。在軟件定義世界的時代,得開發者得天下,只有依靠開源的“群眾路線”。
但在此前,行業內外對于開源軟件是有爭議的。
首先是關于開源軟件知識產權的糾紛。譬如在國內,個別企業會根據相關規則對開源軟件進行修改、衍生,然后發行自己的版本,并把它變成閉源軟件。這不但可以看成是具有負面影響的道德問題,還可能面臨侵犯知識產權遭受法律追訴的風險。
其次是安全隱患。雖然很多開源項目都由企業或資深專家開發維護,但由于不完全是自己使用,導致貢獻者容易對安全性造成疏忽。譬如,知名開源項目爆出安全漏洞的例子多不勝數:OpenSSL Heartbleed、Fastjson 遠程代碼漏洞、Antd 圣誕彩蛋等等。
最后在商業化方面,有些公司會先行開源,而在產品完成之后又進行閉源進行商業化。同時也因為中國開源文化的不規范,小型技術公司會把開源的東西拿過來加一層界面,然后就說這是自主研發的產品。
此前,雖有不盡人意的地方,但一些基礎軟件廠商也在一直堅持開源,并取得了一些成績。
就在今年 4 月,PingCAP 聯合創始人兼 CEO 黃東旭就曾表示,他們自主研發并在研發支出就進行開源的分布式數據庫 TiDB 經過幾年的努力,已經跨越了開源軟件的鴻溝。并且高度活躍的開源社區為 TiDB 產品發展帶來了飛輪效應。
而之所以會從研發之初,就選擇將源代碼進行國際開源,因為在其看來,基礎軟件太過于通用又非常重要,因此獲取用戶的信任成本非常高。如果選擇不開源,一來傳播速度會很慢,二來對方的信任成本會很高。第三個最致命的是用戶的增長并不會是一種病毒傳播式的增長,進而導致產品的迭代速度會變得很慢。
而基于開源的數據庫研發迭代版本更快,極端場景的打磨客戶更多,社區反饋和貢獻更及時,今天全球數據技術的頂級公司都基本以國際開源開發為主。
開源可以為數據庫帶來了什么?
在探討這個問題之前我們不妨了解一下數據庫的未來發展趨勢。
隨著數字經濟的不斷發展,在 Gartner 看來未來數據庫發展有著四個趨勢:開源、HTAP、云原生以及和大數據技術融合。
面對這樣的未來發展趨勢,開源則可以完全可以幫助數據庫向前發展,我們不妨還以 TiDB 為例。
就在今年 4 月,TiDB 發布了 5.0 版本,而最新發布的 5.0 版本在原有 HTAP 引擎 TiFlash 的基礎上引入 MPP 架構,可以為其提供與存儲匹配的分布式計算引擎,進一步提升海量數據下的并行計算與分析能力。
同時,TiDB 5.0 基于分布式架構,支持云原生與多云,可以彈性擴展吞吐或存儲,輕松應對高并發、海量數據場景,實現一棧式數據服務。企業級用戶和互聯網用戶都可以通過一套 TiDB 系統構建數字場景應用,而不必關注底層架構。
此外,目前市面上大部分的大數據技術也都是基于開源來進行研發的。如 Hadoop、Spark、Flink…… 而由于 TiDB 一直堅持國際開源,這也讓 TiDB 為代表的數據庫可以融合當前大數據技術棧。
而這也讓企業用戶,只需要通過在數據庫之上采用增加大數據“外掛”的方式,就可以應對未來企業所需要進行的結構化數據、半結構化數據、以及非結構化數據的融合分析處理。只需要一個接口,就可以解決未來企業面臨的數據問題。
當了解到這些趨勢之后,我們要清楚的是,PingCAP 也才成立于 2015 年,雖然成立的時間很短,但其能夠卻能夠保持著一年一個版本的更新。并在現在能夠在技術上取得領先,并在全球獲得了 1500 家用戶認可的。
而在這背后則正是開源自主創新所帶來的回報。
因為,數據庫產品作為一個“需要被用出來”的基礎軟件,國際開源場景可以為其發展提供三個方面的助力:一是全球領先的規模化場景,二是開放透明的協作機制,三是匯集全球創新智慧。
而國際開源社區的運營和高效協作是實現三大因素匯聚的載體,在這個“開源創新”的飛輪里面,規模化場景推動了開放協作,開放協作帶來了全球智慧,然后進一步推動規模化場景的擴大和用戶的增加,再進入更大范圍的開放協作,帶動更多全球工程師的參與,形成了一個飛輪效應,推動產品的向前發展,從而行程技術領先。
國產數據庫應該有國際夢
業界總是喜歡在我國企業自主研發的基礎軟件前加上“國產”兩個字,如 OceanBase、Polar DB、TiDB 以及昨天剛剛發布的鴻蒙系統……
但頭頂著國產的標簽,就只能在國內使用嘛?
黃東旭此前說到:“我們做的東西有點像在做一把錘子,中國人需要錘子,美國人也需要錘子,尤其是基礎軟件,我覺得是一個屬于全人類的東西。”
當前數字化技術正在推動各個企業向前發展,進行數字化轉型。
如果說此前由于用戶不了解,需要本地部署是的國產數據庫無法出海的話,國際開源社區和云化部署則將可以將其變為現實。
因為隨著開源潮流不斷的從互聯網公司流入到傳統大型企業,開源也就成為了國產數據庫,為獲取規模場景,社區人才,進而加速打磨和迭代產品的最佳模式,尤其是降低了海外用戶對數據庫產品的信任門檻。
同時隨著數據庫云化趨勢的加快,數據庫的部署也將可以足不出戶,直接遠端的部署在公有云的基礎服務上面,通過云端方式服務全球客戶,實現可以可以跨越地理限制的云原生部署模式。
類似地,基于云原生架構的數據庫產品可以數據庫提供商直接提供跨公有云,混合云的數據庫產品,大大降低了數據庫廠商在軟件授權時代需要全球重度部署銷售與技術服務團隊的成本,使得云端出海成為輕量化,高效服務的創新模式。