1. 首页 > 科技资讯

行业分析中常用的模型,行业模型不能采用企业样本

5月26日,星环科技的“向星力·未来数据技术峰会(FDTC)”在上海成功举办。因为疫情,星环科技已经有3年没有举办这种大型线下活动了,这是疫情之后也是该公司上市后首次举办这一大型活动。同时,今年还是星环科技成立10周年,对于星环科技还有继往开来的意义,因此,星环科技为此次大会倾注了大量心血。

而从大会现场看,星环科技也的确给我们带来了惊喜。大会上,星环科技一口气发布了众多创新产品,包括金融大模型“无涯”、大数据分析大模型“求索”、向量数据库和配套的大模型开发工具Sophon LLMOps,实现湖、仓、集一体化和多模架构的星环大数据基础平台TDH9.3、分布式图数据库StellarDB 5.0等,尤其是“无涯”和“求索”两个行业大模型和向量数据库的发布,让人眼前一亮。

01两大行业大模型,让数据分析更智能

ChatGPT的成功让人们见识了大模型和生成式AI的强大能力,很多企业期盼拥有自己的大模型。然而,通用的大模型在面向专业领域的提问时,往往无法提供让人满意的回答。在企业的实际业务中,结合领域知识的预训练大模型可能是一个更好的选择。在FDTC大会上,星环科技就推出了两款这样的行业大模型,分别是面向金融行业的大模型“无涯”和面向大数据分析的Solar“求索”。

“无涯”是一款面向金融量化领域、超大规模参数量的生成式大语言模型。多年来,星环科技一直深耕金融领域,服务了大量金融客户,积累了上百万公开的金融行业的语料,包括上市公司的年报、公告、相关政策等高质量的自然语言文本。这些文本作为基础大模型的二次预训练语料,使得“无涯”对包括基本面、技术面、消息面在内的金融通识领域拥有准确的理解能力。同时,星环科技在图数据库、深度图推理算法有多年积累,这两者共同形成了星环科技开发金融领域大语言模型“无涯”的基础。

“无涯大模型通过多模感知+事件驱动+深度图计算,从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现了全新的智能量化投研新范式。无涯大模型和量化工具结合,能够大大提高分析师、研究员、投资经理的工作效率。”星环科技创始人兼CEO孙元浩表示。

“无涯”构建了包括政策、舆情、ESG、风险、量价、产业链等六类大模型基础因子集,擅长处理金融量化领域的各类问题。比如,在政策和研报分析、新闻解读、事件总结和演绎推理上都具备强大的理解和生成能力;能够对股票、债券、基金、商品等各类市场事件进行全面的复盘、传播和推演;能够生成另类的策略因子集合,构建立体的归因解释体系等。

孙元浩透露,考虑到训练的不同代价和部署成本,目前无涯有两种版本:一个几百亿参数的版本和一个上千亿参数的版本。

星环科技发布的另一个行业大模型Solar“求索”,是一款针对大数据行业全生命周期各种场景的大数据领域大模型,其可以衍生出众多的子领域子任务微调大模型。按照规划,“求索”大模型将具备大数据行业需求理解、推理、各类(含多模型)结构化查询语言和OpenCypher代码生成、Python/R等常用数据分析程序代码生成、Query改写、意图识别、文本生成、嵌入向量生成、知识推理等能力;达到用户只要使用自然语言,就能借助“求索”大模型获取所需数据分析、展示和报告。

孙元浩表示,SoLar“求索”可以作为数据查询和分析的智能副手,为数据工程师、数据科学及业务人员提供更好的使用体验。同时,也可以帮助非专业用户在不需要学习和掌握数据库编程语言的前提下通过自然语言自由地按需查询数据。

02让每个企业都能开发自己的专属大模型

尽管星环科技一口气就发布了两款行业大模型,但在AIGC领域星环科技的业务重点并不在大模型本身,而是要提供大模型配套的工具,帮助企业开发自己的专属大模型。孙元浩在接受采访时就表示,除了已经发布的“无涯”和“求索”大模型之外,星环科技暂时没有推出其他行业大模型的计划。

本次大会上推出的分布式向量数据库Transwarp Hippo就是为开发大模型准备的。向量数据库是大模型带火的一类新型数据库,是一种专门用于存储、索引和查询嵌入向量的数据库系统,它可以让大模型更高效率的存储和读取知识库,并且以更低的成本进行 Fine-Tune(模型微调)。

众所周知,大模型训练的成本很高,因而不可能频繁进行训练,这导致其生成的内容中数据不能及时更新。比如,ChatGPT训练数据截止到2021年9月,意味着它对之后发生的所有事情都不知情。为了保证数据的实时性,可以将最新的数据存储在向量数据库供大模型生成内容时使用。另外,人们也可以将私有数据保存在向量数据库,这部分内容大模型可以用,同时又可以保证数据的安全。

Transwarp Hippo是星环科技自研的一款企业级云原生分布式向量数据库,支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。

“通过Transwarp Hippo我们解决了大模型的三大问题:第一是把实时的知识、变化放到大模型中,能够供它学习。第二,它能够帮助校正大模型生成内容的准确性,极大地提升精度。第三,可以帮助构建知识图谱,以增强大模型的能力。”孙元浩表示。

为了更好地满足企业开发大模型的需求,星环科技还对分布式图数据库StellarDB进行了升级,推出了StellarDB 5.0。StellarDB 5.0对存储和计算引擎进行了优化,同时对多场景计算框架进行了深度优化,实现从实时场景到关联关系分析场景、到图算法分析场景全方位的性能提升。例如,实时短查询场景5倍提升,高并发达到上万+QPS,近50种图算法,平均8倍性能提升,多度关联关系场景10倍提升,解决无限扩层问题等。

孙元浩介绍,StellarDB 5.0有两大重要变化:一个是实现了动态图功能,能保留所有的历史版本,用户可以按照时间点查询图的历史变更;另一个是对接星环自研的深度图框架ZenGraph,将图数据库技术和深度图技术深度融合,可以用于链路预测,还可以用来进行推理,相比传统的图算法,性能上有8倍的提升,准确率提升23%。

当然,要开发大模型,仅有向量数据库+分布式图数据库是不够的。为了帮助大模型的“淘金者”,星环科技推出了用于“淘金”的“铲子”——Sophon LLMOps。Sophon LLMOps是一个机器学习模型全生命周期管理的工具平台,其针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强,形成了LLMOps的工具链,用于帮助企业用户基于大模型构建未来应用。

SophonLLMOps能解决客户三个核心痛点:第一,提供一站式工具链,帮助客户从“通用大语言模型”训练/微调,得到“满足自身业务特点的领域大语言模型”;第二,帮助客户将原型的大语言模型应用,成功地在实际生产中投入应用;第三,帮助客户运营在生产中应用的大语言模型和大模型,使其持续优化。

03丰富的数据库产品,满足复杂的数据处理需求

随着大数据时代的到来,不仅数据量呈现爆炸性的增加,数据类型也在不断增加。而不同的数据类型其处理需求并不一样,因而诞生了各种各样的数据库。星环科技从2013年成立以来,一直扎根在数据相关领域,其数据库产品线也在不断丰富,先后推出了关系型数据库、图数据库、时序数据库等,上文提到的向量数据库就是最新推出的一个。同时,对现有的数据库产品也在持续进行功能优化和丰富。在本次大会上,星环科技就对旗下的数据库产品进行了全面升级。

比如,新发布的ArgoDB 6.0升级了计算引擎,引入向量化算子,全面提升实时处理能力,既保证数据准确性、数据延迟小、数据稳定性,同时也解决了数据量大、数据链路复杂、实时离线一体化等难题。在多模能力方面,ArgoDB 6.0统一SQL接口、统一计算引擎架构、统一存储管理,采用容器化底座,实现了多租户隔离。

KunDB3.2在高可用、Oracle兼容、一体化、智能运维、多场景应用支持等方面能力得到了大幅提升,单机事务性能达到188tpmC,水平扩展比达到90%以上,可用于各行业国产化替代升级和分布式架构转型,帮助企业筑牢数字化发展根基。

另外,面对时序数据数据量大、数据分析需求高,开源系统不支持集群部署,存储和计算数据规模有限,不支持复杂分析,服务不稳定,以及缺乏安全可控性等问题,星环科技推出了面向多元场景的高性能分布式时序数据库TimeLyre 9.1。TimeLyre 9.1在常见的时序数据上,可实现5~20倍压缩率,远优于传统数据库,数据压缩高、单节点磁盘可用容量高,可大大节约成本。

还有星环的时空数据库Spacture,专为空间而生、为变化而生。星环Spacture拥有高效时空数据分析、多样化数据类型支撑、算子下推、多种标准支持、主流生态兼容等特性,可应用于时空查询分析、时空模式挖掘、时空轨迹聚类等时空数据分析需求等场景。

有必要强调的是,星环科技的数据库产品很多,但基于星环科技多模型统一技术架构实现了统一的SQL引擎、统一的分布式计算引擎和统一的分布式数据管理系统和统一的资源管理系统,开发人员可以通过统一入口、利用统一的访问语言对不同数据库中的关系型、文本、图数据等数据类型进行操作,大大降低了数据利用的复杂性,这也成为星环科技的一个技术优势。

04夯实数据底座,助力国产替代

星环科技最早从大数据起步,大数据平台TDH是星环科技的当家产品,在产品更新上自然也不会落后,本次大会也发布了最新版的大数据平台TDH 9.3。新推出的TDH9.3有重大的更新,其在业界流行的湖仓一体的基础上再进一步,打破了湖仓集的边界,推出了湖仓集一体化。

传统湖仓集解决方案大多采用多系统的混合架构,一份数据同时存在数据仓库、数据湖和数据集市中,因此存在存储冗余、数据流转成本高、数据更新慢、数据一致性难以保证等问题,而TDH 9.3推出新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转,提升业务综合性能与时效性。

新一代湖仓集统一存储Holodesk在数据集市方面,支持基于Holodesk存储格式的集市分析,存储&计算双升级,分析性能大幅提升;在数据仓库方面,支持完整四种事务隔离级别,支持复杂批处理加工、数仓模型拉链表等,无需手工计算分桶数,自适应数据分布自动合并小文件;在数据湖方面,支持离线导入/实时写入、时间旅行,生态对接 Spark/Flink/Sqoop。

另外,随着大数据上云需求越来越普遍,星环科技还将TDH和其数据云平台TDC完全打通,实现TDH底座就地升级到TDC。顺便一提的是,星环科技的数据云平台TDC也有升级,推出了TDC 3.2,新版TDC可以利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,以提高调度资源的灵活性和利用率,不仅释放运维人员的时间与精力,而且提升运维效率。

除了前面提到的产品,本次大会上新发布的还有数据流通平台Navier 3.1以及Defensor 4.0版本。前者让数据流通更便利、更安全、更可控,而后者由于在数据分类分级模块中引入了大模型技术,识别准确率达到了95%。

值得一提的是,尽管星环科技公司旗下产品多,但星环科技做国产数据基础软件的初心一直没变,这些年来始终围绕数据,坚持做数据底座,在大数据时代如此、在大模型时代也是如此。

实际上,正因为星环科技始终坚持打造数据基础软件,如今才能围绕数据构建起来完整的数据分析和处理软件栈,成为众多中国企业落实国产替代战略的合作伙伴。比如,大数据平台TDH和数据云TDC可替换Cloudera的CDH/CDP;OLTP数据库KunDB替换Oracle和MySQL;分析型数据库ArgoDB替换Oracle、DB2、Teradata;搜索引擎Scope替换Elasticsearch;图数据库StellarDB替换Neo4j;时序数据库TimeLyre替换InfluxDB,数据分析软件Sophon Base替换SAS等。

基础软件是一个累活,需要长期的坚持。为了打造上述软件栈,星环科技努力了10年。如今,在走向下一个十年的开端,有了现有的软件栈作为基础,还有成功上市后的资本加持,我们相信星环科技未来能走得更快、更稳,迎来一个更加辉煌的新十年!

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.miyuegong.com/kejizixun/67105.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666