Zilliz 是一家成立于 2017 年的开源技术创新公司,目前正在聚焦研发基于异构计算架构的新一代数据处理平台。
成立至今,Zilliz 已获得来自云启资本 、晨兴资本等知名投资机构的上亿元投资,公司在 2019 年 10 月发布了一款开源向量搜索引擎 Milvus,6 个月时间里在全球积累了 200 多家企业级用户,用户社区里不乏像 WPS、贝壳、小米等行业代表性企业。
同时获得资本和大型企业用户的认可,这家年轻的公司有什么吸引人的特质?前不久,DeepTech 跟 Zilliz 创始人谢超聊了聊,从这家公司,到这个行业的未来。
归国创业
Zilliz 团队目前有 50 余人,公司创立的时候,加入的新成员都要选一个英雄作为花名,这也延续成了公司的一种文化,期望每位成员都具备独当一面的实力。谢超选择了漫威世界里的一个超级英雄、银河护卫队中的“星爵”,在他看来,银河护卫队成员虽没有爆表的超能力,但总能通过默契协作干成一件大事,而协作不仅是团队综合战斗力的保障,也符合开源技术的精神。在以往的报道中,他基本以星爵的名字出现,因此,本文也以此称呼他。
在创办 Zilliz 之前,星爵曾在国际软件巨头 Oracle(甲骨文公司)效力 6 年。
2009 年左右,数据库向云延伸已经成为一种可预见的技术趋势,在 Oracle 内部也计划打造一项全新的云原生数据库产品,星爵作为核心成员和奠基人之一参与到了这个项目的开发之中,最终的成果就是目前为开发者所熟知的 Oracle 12c。
Oracle 12 c 是一种针对云计算时代设计的多租户容器数据库(CDB),它的特性允许在其中创建并且维护多个可插拔数据库(PDB),每个 PDB 的数据和应用是相互独立的。在单独使用 PDB 时,与普通数据库无差异,这极大地简化了数据库整合到云的过程, 客户无需更改应用即可将多个数据库作为一个来管理,如此一来,这种数据库系统很快在业内得到普及应用。
图|Oracle 12 c 构架图(来源:eygle)
截止到 2019 年下半年,Oracle 12c 产品已经累计为甲骨文创造了超过 50 亿美金的营收,从公司战略和商业层面来讲,这都是一种成功。
星爵回忆起这段在老东家的“战绩”,依旧十分兴奋:“我觉得在 Oracle 的工作给了我很多的经验跟启发,让自己成长了不少,比如打造世界上最复杂的一个数据库系统,该怎样去拆解、去解决问题、去迭代,然后在一个复杂的系统跟组织里面,怎样去协调一个很复杂的研发项目,更重要的是也看到了一些全新的思维方式,不管是技术的趋势,还是商业的趋势。”
在云计算普及之后,人工智能快速掀起了新的技术浪潮,而作为人工智能三大要素:数据、算法、算力之一的大数据管理和处理,迎来了新的挑战和需求,数据库系统和工具也需要同步革新,尤其是在 AI 产业快速增长的中国。
这些挑战和需求体现在什么地方?简而言之,可以借用 2020 年初英特尔首席执行官 Robert Swan 在一次公开演讲中提及的数字说明:自 2015 年以来,全球数据量每年增长 25%,其中一半的数据量来源于日益增长的边缘端,全球目前已有 560 亿互联设备,预计到 2025 年,全球数据量将达到 175ZB,而其中只有 1% 的数据被 AI 模型所处理。
是的,智能时代的帷幕刚刚拉开,而我们现阶段对于数据价值的挖掘和效率却远远不够,急需更先进的数据系统工具,另一方面,边缘端的智能设备种类激增,数据类型也将日益庞杂,总是需要繁琐的加工处理后才能为 AI 所用。
在 Oracle 工作多年的的星爵自然也察觉到了这样的趋势,于是回国创办了 Zilliz,星爵给公司立下了一个愿景:重新定义数据科学 。
图|Zilliz 创始人星爵(来源:Zilliz)
“重新定义”
星爵表示,重新定义数据科学的愿景虽听上去口气比较大,但其实是很朴素的一个想法。
“重新定义”并不是要去定义什么概念,而是要真正从需求侧出发,发掘市场在不同阶段产生了什么样的新需求,发现这个需求之后,在当下的技术环境下能不能用更好的解决方案去满足这种需求。
具体到数据处理领域,发展历程已超过 70 年时间,在不同的发展阶段,总是先产生不同的数据类型,后衍生出对数据的处理、分析方法以及基于数据处理构建起的商业生态。
近年来,在 AI 技术浪潮的普及下,技术人员开始让机器模拟人类智能的一些特性,比如视觉和听觉,这在本质上就催生了对图片、视频、语音还有自然语言的理解等多维数据的分析和使用,这些原始抓取到的数据被称为非结构化数据,这些体量庞大的非结构化数据大约占到数据总量的 80%,如果能够被高效使用起来的话,会进一步推动智能化的发展。
此外,与 AI 并行发展的,还有 5G 和 IoT。5G 是 IoT 大爆发最核心的基础设施,人类社会数据的密度和产生的速度将会空前加速,IoT 设备将在各行各业无处不在,预计到 2025 年,全球会有超 1500 亿个联网的设备,平均到每个人会有 20 个左右,每个人的生活与数据密不可分,多种来源的 IoT 数据能够基于 5G 网络高速流通、汇聚、关联,包括从智能穿戴、智能手机、PC 到智能汽车、智能家居、智慧城市等各类传感器。
“在上世纪 70 年代,结构化数据爆发,关系型数据库的需求直接催生了 IBM、Oracle 这样的老一代科技巨头。第 2 次数据科学的革命,基本上是以半结构化的文本网页的数据为代表性的爆发,揭开了以谷歌为代表的互联网企业时代。第 3 次这种数据大爆发,就是当下非结构化数据跟 IoT 数据的大爆发,这是历史性的时机。”星爵认为。
在非结构化数据结构化的过程中,传统的处理方式是先给数据“打标签“,例如,计算机视觉算法所需要的图像数据中,我们需要先对一些原始图像内容进行标注,标注好图片中的人、车、动物或其他物品,而星爵和团队的技术路径则是通过人工智能技术将非结构数据转换为向量数据,以便更高效地进行数据的分析与搜索,团队为此设计开发了向量搜索引擎 Milvus,落地应用涵盖机器视觉(图像、视频处理)、自然语言处理、语音识别、推荐系统以及新药发现等。
图|Milvus 整体架构(来源:Zilliz)
在星爵看来,过去 10 年以深度学习、机器学习等为代表的 AI 技术有了巨大提升,技术人员在算法端和模型端已经积累了很多对非结构化数据处理的经验和方式,现在最突出的一个矛盾在于 AI 是不够普及的,这也是 Milvus 向量搜索引擎以开源形式推出的原因,让大公司和中小型团队都能受益。
中小型公司实施一个 AI 项目的成本比较高,平均的实施周期大概要 6 个月以上,成本可能需要 100 万美元,对于中小型团队来说是一个巨大成本,星爵希望把 AI 技术普惠化,通过开源,通过一个更好用的软件,打通整个行业的上下游,去做 AI 落地的最后的一公里,能够使 AI 的使用普及变得更加民主;
另一方面,对于行业巨头来说,AI 算法的模型和精度达到成熟度之后,需要处理的非结构化数据规模越来越大越复杂,技术挑战从模型算法端慢慢地转移到数据端,形成了新需求亟待解决,这是一个市场空白。
数据处理领域面临的另外一个挑战是在 AI、IoT、5G 技术交叉融合下异构计算的广泛应用。这意味着两个维度的“异构”,首先是多种异构处理器,可能包含 GPU、 CPU、 ARM 的芯片,也有 NPU、TPU 等智能芯片;其次就是整个应用部署的环境也是异构的,包括公有云、私有云、混合云、终端、边缘端各种综合的部署环境。
“我们当时在 2017 年开始投入研发的时候,发现在这样的异构计算兴起的潮流下,专门适配的数据搜索处理引擎跟平台都是没有的。如果要做后续更多的事情,只有我们自己去进行一个技术的突破,因此投入在 Milvus 向量搜索引擎方面的研发一下就做了两年时间,这是第一步,但也形成了我们很坚实的技术壁垒。在这样的引擎基础上我们才能进一步延展数据分析的能力、向量计算的能力、非结构化数据处理的能力,以及时空数据分析的能力等等。”星爵表示。
图|AI 搜索引擎处理非结构化数据的整体框架(来源:Zilliz)
在应用场景方面,星爵表示,Milvus 向量搜索引擎可具备很好的通用型,向量数据和 AI 的一些技术栈是天然对接比较好的部分,现在的深度学习的方式很多都是一种基于张量的方式,会把它要处理的非结构化数据,比如图片、视频、语音或文字等进行模型的加工之后生成一些向量化的数据。在很多的场景下,AI 其实最终是把这些非结构化数据向量化之后,直接在向量这个层次去进行操作,去进行搜索的。
比如现在的浏览器当中普遍有新闻资讯信息流推荐,假设有 20 万条内容,标题通过自然语言的模型进行处理之后,转成一个标题的语义的向量,然后可根据用户的搜索兴趣和阅读偏好进行千人千面的重新排序和推荐;比如在找房平台,也是类似于这种个性化推荐,把房源信息向量化之后跟用户的搜索需求进行匹配和推荐;在计算机视觉方向,可以将原始的图片或视频流截取关键帧之后,抽取成向量数据,最简单的应用例如在线下看到一个商品我们拍张照片,在购物网站上用这个照片搜索就能获取到这个商品的更多信息;在制药领域,比如辅助化合物的筛选和基因序列的比对;还有近年来越来越热门的时空大数据分析等等。
开源是笔“快生意”
尽管投入了不少的时间和研发成本,但为了让企业开发者能很快用起来,形成正向的需求反馈和迭代能力,星爵和团队还是选择了开源模式,他们认为打造事实的行业标准比急于短期内的商业变现显得更重要。
业界有句流传比较广的话:软件正在蚕食这个世界,而开源正在蚕食整个软件世界。
这句话的前半句由 Mosaic 浏览器、网景公司创始人、美国知名风险投资家马克 · 安德森(Marc Lowell Andreessen)在 2011 年提出,意思是说软件程序越来越成为硬件发展的重要驱动力,比如更流畅的操作系统、更丰富的软件应用都倒逼着硬件以更好的形态进行支持,怎么去操控和使用硬件,都需要软件系统来赋予一个硬件可用性。
而后半句,则是开源风潮的真实写照。技术界的开源运动已经发展了 30 多年,例如自由软件和开放源代码软件的代表 Linux,该操作系统的内核早在 1991 年就由著名的电脑程序员林纳斯 · 托瓦兹(Linus Benedict Torvalds)发布出来,早先是极客乌托邦精神的一个缩影,包括后来的 Apache 开源网络服务器的兴起,逐渐促使世界上越来越多的开发者和创意项目加入到开源行业里面去,开源生态日渐繁茂。
过去 10 年间,整个开源的技术路径也摸索出来一套完整的发展流程,从一个项目的社区运营,到营销、推广、技术生态建设,再到最后期形成一个稳定的商业模式,比如订阅服务、托管、高级功能开发、云服务、生态收益等诸多形式。
最诱人的是,在开源赛道里,足以诞生百亿美元级别的公司。一个典型案例是在 2018 年 6 月,微软以 75 亿美元的价格收购 GitHub,这给予了开源项目巨大的肯定。
2019 年,GitHub 社区在全球已有超过 4000 万开发者用户,一年之内就有 1000 万新增开发者加入 GitHub。海量开发者在去年一年中,总共构建了 4400 万个代码仓库,其中深度学习、 机器学习、自然语言处理等 AI 主题的代码仓库热度飙升,而社区整体早已突破了 1 亿代码仓库的里程碑,AI 技术发展背后,开源是无形中的重要推动力。
星爵对 DeepTech 表示,开源正在从刚开始的一种技术自由民主的精神象征,越来越走向主流,会成为一个软件开发、软件协作和软件创新领域最常用的方式。在 GitHub 社区中,来自中国的开发者在过去 12 个月里增长了 37%,贡献了 500 多万个开源项目,预计在未来的 5 年,中国会超过美国成为社区中的第一大开源力量。
图|美国之外,2019 年来自中国的开源力量在 GitHub 上保持着最高的增长状态(来源:GitHub)
中小型创业公司做开源项目能够在技术创新力度上形成聚焦,与大公司相比,它们没有太多包袱和组织复杂度,也无需在市场营销方面投入太多资源,核心聚焦的问题就是把技术在世界范围内做到领先或最好。
把代码开源后,需求问题就解决了。用户在免费尝试的过程中,会提出各种升级需求,这让开源软件形成一个很好的开发流程滚动,此外,这也是一种很高效的营销模式,极大降低了用户早期的采用成本;从另一个维度讲,因为开放,用户方对开源厂家的技术水平和能力可以有个客观评价,如果使用体验比较好话,用户会自主进行口碑传播,也不需要去做营销广告,自己讲自己的软件产品如何好,在开发者圈内会形成一个很民主的评判。
很多的开源软件到了一定的使用规模,或者说有一些企业客户用的一款开源软件用到了比较大的量级,会产生了一个真正的关键路径依赖,之后会主动找到开源原厂沟通合作,以寻求更全面的技术支持,比如提出企业版本、云版本的软件,并有一个很好的付费意愿。
“开源项目的最终商业变现一定是件水到渠成的事,用一句话总结就是,它可以在技术领域给创新创业公司一个多倍的杠杆,去撬动整个软件世界。”星爵说道。
关于影响开源项目成败的关键因素,星爵认为有以下几点:
1、开发人员的技术素质和水平,需要精兵强将,开源是没有国界的,只有全球领先的概念,不存在区域领先,所以需要一个开发团队有能力拿出世界领先水平的优秀产品,产品能扎扎实实地解决行业的痛点;
2、团队要有利他主义的开放精神,先为客户创造价值,在这个过程中有一个更好的提升,最终收获一份价值;
3、找准一个好的方向,了解什么项目适合开源什么项目不适合开源,一般来讲的话,开源项目要面对一个足够大的市场,这意味着可能需要开发一个基础型的软件或者说一个平台型的软件,能够做到各行各业的通用性;
4、持续不断的技术社区运营,技术社区运营至少占到一个开源项目成功因素的 40%;
而提到 “多倍杠杆” 的概念,在国外已有不少参考案例,开源项目在前期的 5~6 年可能完全是投入根本不赚钱,但如果能走到后期成功地把技术在某领域做到了领先,成为行业的技术标准,被用户广泛采用之后,后期的商业化爆发力是惊人的,可能一年就能翻 3-4 倍,市场估值也非常可观,这也是很多投资机构近年来开始密切关注开源项目投资的原因,放长线钓大鱼。
星爵介绍,以 Apache 上的顶级开源项目 Spark 为例,这是 2008 年开始开源的一个项目,背后的运营公司是 Databricks,目前该项目在一级市市场的估值已高达 62 亿美元,该公司在 2018 年大概实现了 1.2 亿美金的营收,到 2019 年直接增长到 2.6 亿美金的营收规模,增长速度十分迅猛。
如果从一个企业发展的周期来看,在开源软件赛道里面,这已经是一笔快生意,为什么这么说呢?
第一,市面上其实很少有公司能做到 100 亿美金左右的价值规模,但在全球开源软件领域已有很多案例,基本都是在 8-10 年间就做到百亿美元的规模,这速度已经很快了;第二,很多 toC 的项目想要打造一家百亿美元级别的公司,前期可能就要烧掉 40 亿~ 50 亿美元,通过大范围的补贴、推广,去抢占市场份额。
但是像 MongoDB,一个分布式的基于文件结构的数据库,通过做开源数据库项目 2017 年上市后市值达 101.60 亿美元,这家公司上市前的私募股权融资总额不过 2 亿多美金;另一家开源软件公司 Elastic 在 2018 年上市,目前市值为 58.61 亿美元,上市前只融了 1.5 亿美金。
从资金的利用效率上来看,好的开源项目是一笔很好的生意,也是一笔很高效快速的商业范例。
图|计算机编程代码(来源:pexels)
非零和游戏
既然开源数据库软件赛道这么好,那接下来这个领域会有激烈竞争么?
星爵认为,开源相对于传统的软件经营模式,更多的是协作关系,大家互为补充,共同发展生态把蛋糕做大,这不是一个固定的有限竞争中的零和游戏,数据价值的挖掘和软件的渗透率还很低,还有更多市场需求等待满足。
全球的数据分析、数据处理软件,数据库产品,包括对结构化、非结构化、半结构化处理的方案,对于分布式数据库的方案,整体的市场大盘是在不断的增长的,诸如 Oracle 这样的企业软件公司经过了 50 年的发展,还保持着可观的增长,尤其是进入云计算、AI、5G 时代,数据的增速非常快,大家本质上都是要去拓展数据处理的边界,为各行各业更好的提供数字化转型升级和赋能,这是一个无限的开放市场,每一个公司能把自己聚焦的技术领域做好,都会有一个很好的成长空间。
从更宏观的层面来看,星爵对中国的开源软件市场保持着十分乐观的看法。
他认为中国以后一定会成为全球第一大经济体,在这样的背景之下,中国的 IT 和信息化也大概率会成为全球的第一大市场,这个节点可能发生在未来 10 年、20 年也可能是 30 年之后,但其趋势不可阻挡。现在的中国有更多的工程师、更多的开发者,中国的开源项目势力在世界上会产生越来越大的影响,包括 AI 的应用、5G 的技术研发和部署、物联网的普及等等。
就像美国上个世纪成为全球第一大 IT 市场后诞生了像微软、IBM、Oracle 等科技巨头一样,中国正走在类似的发展轨迹上,且这次的技术浪潮更为汹涌。
“在未来中国的技术土壤之上成长起来全球一流的开发人员和软件公司,这是一个历史的必然规律和潮流。”星爵最后说道。