1. 首页 > 科技问答

反思国产大模型的作文,做模型的泡沫板叫什么

//

纵览人类科技发展史,均由泡沫塑料里的生还者来继续推动的。即便人们自身,都是种群全面爆发这一场微生物泡沫幸运者。

近期,Facebook初期投资人Roger McNamee在CNBC上指责人们对于AI的疯狂,是“忘记了以往高新科技泡沫塑料所带来的痛”。

相同的,在中国,应对越来越多大模型,一部分沉着冷静的人群,也表明出自己忧虑。

“那么多的大模型,具备一定自身技术性的有几个?”

“有多家企业能持续投入下来?”

更具头顶部VC组织人士认为,通过他的私底下评估和摸排,基本上中国每一个大模型,全是PR新项目……

大家都知道,大模型的训练是一个成本费非常高的全过程,需要大量算率和资金扶持,以OpenAI为例子,GPT-3的一次训练成本费就超过140万美金,对于一些更多的大模型,训练成本费处于200万美金至1200万美金中间。

用著名计算机专家乌军得话来形容了,ChatGPT每训练一次,等同于坏掉了3000辆特斯拉电动车。

这个数告诉我们:要想打造出有潜力的大模型,下不来重金肯定是不行的。

一些规模、资金短缺,却仍然嚷嚷着要“对比ChatGPT”的公司,其自身的实力,免不了给人带来猜疑。

比如某一在发大模型后,本身股价最高疯涨338%的国内公司(这里也不点名了),其账里的流动资产但是13亿人民币。

但是,以ChatGPT的训练成本费为例子,要想身后智能算率集群式,仅GPU独立显卡产品成本就超过了10亿人民币。当前国内可以撑起相近基础设施建设公司不得超过3家。

也正因为如此,在这一场表层繁华大模型比赛中,终究有一大票企业,都不过是喊着大模型的名头,来达到个人利益的“陪跑者”而已……

但是纵览人类科技发展史,均由泡沫塑料里的生还者来继续推动的。即便人们自身,都是种群全面爆发这一场微生物泡沫幸运者。假如泡沫塑料避免不了,从业人员真正想要的是应对泡沫塑料后的理智和韧劲。

1

数据荒岛

国产大模型能不能做到或超过GPT这种优秀模型的水准,有两种比较关键的影响因素:

一是在数据集的获得上,怎样积累沉淀够多、且高质量数据集;

二是在提练大模型的“加工工艺”上,怎样勇于探索和突破,寻找新的理论与方法。

先讲第一点。

现阶段,在模型的训练上,用于训练的主力数据集以英文为主导,中文数据只占有4.8%。

以前清华大学计算机专业专家教授唐杰,对其千亿元模型ChatGLM-130B训练前数据提前准备时,就曾经遭遇过清理中文数据后,可使用量不上2TB的现象。

这便是中国全部做大做强模型团队无法回避的残酷现况。

为解决这些问题,很多中国精英团队,已经开始根据“同心协力”的形式,开源系统自已的中文数据集,以期待填补高品质中文数据集的不够。

可是,这类根据每个精英团队“主动”开源系统的形式,依然存在一定片面性,那便是:因为数据的敏感度、私密性和使用权等诸多问题,各行各业和领域内的数据并非易事得到或分享。

中国数据很多贮存于手机端APP中,于训练大模型来讲较为难以爬取。

与此同时中国互联网大佬间的数据彼此封闭式,数据荒岛化比较严重。比如百度平台生态数据,腾讯官方公众号数据,阿里巴巴电商物流数,这种归属于各个企业的私数据,虽然都是在各个领域场景,积攒了别人所不能及的优点,但对其使用权和个人隐私的问题,造成难以和外界开展分享。

但这些不易获得的数据,通常没法依靠各团队“自行”和“积极”开展开源系统。

针对这一难题,领先行业美国AI产业链,早就根据更加成熟的数据数据共享平台、数据贸易市场、数据私募基金等体制,推动了数据的流动和价值发现。

从总体上,在各种数据交易网站中,第三方数据持有者能将初始数据挂上去数据贸易市场上公布售卖,数据需求者按照合同约定价钱(买断合同数据/按钟头收费、服务平台会费)付款后,还可以在数据交易网站中取得线下的数据包或是即时API。

若最后成功交易,服务平台扣除一定提成后退还销售额给第三方数据持有者。这一类型的数据交易网站意味着有RapidAPI、Streamr等。

相比之下,中国大数据买卖还是处于初始阶段,数据买卖主要是以单一的初始数据“初加工”买卖为主导,且数据供求不一样,促使数据买卖无法满足社会发展恩格尔定律,数据成交转化率和成交量不太高。

除此之外,在数据交易中,中国市场缺乏足够的全国统一的标准机制和必须的法律保护,不能有效破译数据标价、数据土地确权等问题。

长远来看,中国大模型要想在数据的总数、质量上进一步得到提高,就不可以仅仅仅靠一部分精英团队“自行”和“积极”的开源系统,而需在法律法规、市场经济体制等多个方面,做更多与时俱进改革创新,这般方可推动各行各业间数据的普遍分享。

2

“加工工艺”的差距

除开数据集的总数、品质外,另一个确定大模型水平高低的重要因素,便是提练大模型的“加工工艺”。

前不久,复旦大学教授、上海数据科学合理重点实验室负责人肖仰华则表示,与国外同行业对比,模型、数据和算率并不是是国内最大的缺点,真正意义上的薄弱点取决于对于模型"提练"加工工艺的把握,包含数据秘方、数据清洗基本参数等。

现在一些中国大模型,动则就对外开放称为“百亿元”、“千亿元”经营规模,好像计算复杂度越多,模型特性就愈强。

但是,徒有庞大经营规模,却欠缺前沿的“加工工艺”,这就像一个脑量甚大,但是却把握不上学习培训要点的学生们,无法在学习力上进一步“精湛”。

从总体上,如果把提练大模型的一个过程,对比成一座工厂里的生产流水线。那样数据秘方就像是在逐渐生产制造以前挑选原料一样,必须选择不同数据集,明确各个领域、不同种类、不一样模态分析数据的配制;

而数据清理就像对待原料的生产加工一样,对初始语料库开展去噪、去重复、过虑、规范性等行为,获取有价值的信息;

基本参数如同生产中的调节和改进一样,根据选择适合自己的超参,如学习率、批号尺寸等,以达到最好效果。

尽管以上的每一个操作步骤,中国其实都知道如何做,可是把它们整合在一起,整体实际效果与国外是差距很大的。

这算不上0和1的差别,但确实是50分和100分差别。

因此,大模型的研发与利用,终究是一个易学难精的一个过程。而要想进一步提升这种加工工艺,就必须要在人工智能基础知识、工程实践及其创新思维能力上积累沉淀,以此来实现在重要环节里的突破和领跑。

可关键是,这种不断尝试错误、探讨的全过程,通常是一个需要耗费大量时长、网络资源,且并没有直接产出率与获利的全过程。

即使是造就了ChatGPT的OpenAI,现阶段仍然处于比较严重亏钱的情况(其上一年的亏本已超5.4亿美金)。

这对国内很多急功近利企业来说,无疑是一个重要的挑战。

现在国内巨头们对专业性风口的追求与热情,意志不坚定,也欠缺耐心。

打个比方,全员造芯运动时,在2017年,资产对半导体的疯狂达到一个顶部,创出迄今最大历史数据,每笔均值股权融资做到 8亿人民币。

但是,一旦发觉某种技术的研究,是一场悠长且难遇利润的全过程,一些公司的“心浮气躁”与“摆动”会逐渐呈现。

2020年,武汉市弘芯半导体,称为千亿元项目投资,tsmc技术大牛掌管。但创立只是三年,就被爆出新项目拖欠工资暂停。武汉弘芯将内地唯一一台,使用价值5亿多元,可以生产制造7nm芯片的光刻技术,拿来银行抵押贷款复活。

不难看出,世界各国大模型之间的竞争,表面看,是数据集多少、品质多少之间的竞争;略微深层次了看,是模型加工工艺的较量;而再渗透到最底层,就会变成不同类型的商业文化,甚至生态系统综合性市场竞争了。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.miyuegong.com/kejiwenda/68711.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666