反思国产大模型的作文，做模型的泡沫板叫什么

纵览人类科技发展史，均由泡沫塑料里的生还者来继续推动的。即便人们自身，都是种群全面爆发这一场微生物泡沫幸运者。

近期，Facebook初期投资人Roger McNamee在CNBC上指责人们对于AI的疯狂，是“忘记了以往高新科技泡沫塑料所带来的痛”。

相同的，在中国，应对越来越多大模型，一部分沉着冷静的人群，也表明出自己忧虑。

“那么多的大模型，具备一定自身技术性的有几个？”

“有多家企业能持续投入下来？”

更具头顶部VC组织人士认为，通过他的私底下评估和摸排，基本上中国每一个大模型，全是PR新项目……

大家都知道，大模型的训练是一个成本费非常高的全过程，需要大量算率和资金扶持，以OpenAI为例子，GPT-3的一次训练成本费就超过140万美金，对于一些更多的大模型，训练成本费处于200万美金至1200万美金中间。

用著名计算机专家乌军得话来形容了，ChatGPT每训练一次，等同于坏掉了3000辆特斯拉电动车。

这个数告诉我们：要想打造出有潜力的大模型，下不来重金肯定是不行的。

一些规模、资金短缺，却仍然嚷嚷着要“对比ChatGPT”的公司，其自身的实力，免不了给人带来猜疑。

比如某一在发大模型后，本身股价最高疯涨338%的国内公司（这里也不点名了），其账里的流动资产但是13亿人民币。

但是，以ChatGPT的训练成本费为例子，要想身后智能算率集群式，仅GPU独立显卡产品成本就超过了10亿人民币。当前国内可以撑起相近基础设施建设公司不得超过3家。

也正因为如此，在这一场表层繁华大模型比赛中，终究有一大票企业，都不过是喊着大模型的名头，来达到个人利益的“陪跑者”而已……

但是纵览人类科技发展史，均由泡沫塑料里的生还者来继续推动的。即便人们自身，都是种群全面爆发这一场微生物泡沫幸运者。假如泡沫塑料避免不了，从业人员真正想要的是应对泡沫塑料后的理智和韧劲。

数据荒岛

国产大模型能不能做到或超过GPT这种优秀模型的水准，有两种比较关键的影响因素：

一是在数据集的获得上，怎样积累沉淀够多、且高质量数据集；

二是在提练大模型的“加工工艺”上，怎样勇于探索和突破，寻找新的理论与方法。

先讲第一点。

现阶段，在模型的训练上，用于训练的主力数据集以英文为主导，中文数据只占有4.8%。

以前清华大学计算机专业专家教授唐杰，对其千亿元模型ChatGLM-130B训练前数据提前准备时，就曾经遭遇过清理中文数据后，可使用量不上2TB的现象。

这便是中国全部做大做强模型团队无法回避的残酷现况。

为解决这些问题，很多中国精英团队，已经开始根据“同心协力”的形式，开源系统自已的中文数据集，以期待填补高品质中文数据集的不够。

可是，这类根据每个精英团队“主动”开源系统的形式，依然存在一定片面性，那便是：因为数据的敏感度、私密性和使用权等诸多问题，各行各业和领域内的数据并非易事得到或分享。

中国数据很多贮存于手机端APP中，于训练大模型来讲较为难以爬取。

与此同时中国互联网大佬间的数据彼此封闭式，数据荒岛化比较严重。比如百度平台生态数据，腾讯官方公众号数据，阿里巴巴电商物流数，这种归属于各个企业的私数据，虽然都是在各个领域场景，积攒了别人所不能及的优点，但对其使用权和个人隐私的问题，造成难以和外界开展分享。

但这些不易获得的数据，通常没法依靠各团队“自行”和“积极”开展开源系统。

针对这一难题，领先行业美国AI产业链，早就根据更加成熟的数据数据共享平台、数据贸易市场、数据私募基金等体制，推动了数据的流动和价值发现。

从总体上，在各种数据交易网站中，第三方数据持有者能将初始数据挂上去数据贸易市场上公布售卖，数据需求者按照合同约定价钱（买断合同数据/按钟头收费、服务平台会费）付款后，还可以在数据交易网站中取得线下的数据包或是即时API。

若最后成功交易，服务平台扣除一定提成后退还销售额给第三方数据持有者。这一类型的数据交易网站意味着有RapidAPI、Streamr等。

相比之下，中国大数据买卖还是处于初始阶段，数据买卖主要是以单一的初始数据“初加工”买卖为主导，且数据供求不一样，促使数据买卖无法满足社会发展恩格尔定律，数据成交转化率和成交量不太高。

除此之外，在数据交易中，中国市场缺乏足够的全国统一的标准机制和必须的法律保护，不能有效破译数据标价、数据土地确权等问题。

长远来看，中国大模型要想在数据的总数、质量上进一步得到提高，就不可以仅仅仅靠一部分精英团队“自行”和“积极”的开源系统，而需在法律法规、市场经济体制等多个方面，做更多与时俱进改革创新，这般方可推动各行各业间数据的普遍分享。

“加工工艺”的差距

除开数据集的总数、品质外，另一个确定大模型水平高低的重要因素，便是提练大模型的“加工工艺”。

前不久，复旦大学教授、上海数据科学合理重点实验室负责人肖仰华则表示，与国外同行业对比，模型、数据和算率并不是是国内最大的缺点，真正意义上的薄弱点取决于对于模型"提练"加工工艺的把握，包含数据秘方、数据清洗基本参数等。

现在一些中国大模型，动则就对外开放称为“百亿元”、“千亿元”经营规模，好像计算复杂度越多，模型特性就愈强。

但是，徒有庞大经营规模，却欠缺前沿的“加工工艺”，这就像一个脑量甚大，但是却把握不上学习培训要点的学生们，无法在学习力上进一步“精湛”。

从总体上，如果把提练大模型的一个过程，对比成一座工厂里的生产流水线。那样数据秘方就像是在逐渐生产制造以前挑选原料一样，必须选择不同数据集，明确各个领域、不同种类、不一样模态分析数据的配制；

而数据清理就像对待原料的生产加工一样，对初始语料库开展去噪、去重复、过虑、规范性等行为，获取有价值的信息；

基本参数如同生产中的调节和改进一样，根据选择适合自己的超参，如学习率、批号尺寸等，以达到最好效果。

尽管以上的每一个操作步骤，中国其实都知道如何做，可是把它们整合在一起，整体实际效果与国外是差距很大的。

这算不上0和1的差别，但确实是50分和100分差别。

因此，大模型的研发与利用，终究是一个易学难精的一个过程。而要想进一步提升这种加工工艺，就必须要在人工智能基础知识、工程实践及其创新思维能力上积累沉淀，以此来实现在重要环节里的突破和领跑。

可关键是，这种不断尝试错误、探讨的全过程，通常是一个需要耗费大量时长、网络资源，且并没有直接产出率与获利的全过程。

即使是造就了ChatGPT的OpenAI，现阶段仍然处于比较严重亏钱的情况（其上一年的亏本已超5.4亿美金）。

这对国内很多急功近利企业来说，无疑是一个重要的挑战。

现在国内巨头们对专业性风口的追求与热情，意志不坚定，也欠缺耐心。

打个比方，全员造芯运动时，在2017年，资产对半导体的疯狂达到一个顶部，创出迄今最大历史数据，每笔均值股权融资做到 8亿人民币。

但是，一旦发觉某种技术的研究，是一场悠长且难遇利润的全过程，一些公司的“心浮气躁”与“摆动”会逐渐呈现。

2020年，武汉市弘芯半导体，称为千亿元项目投资，tsmc技术大牛掌管。但创立只是三年，就被爆出新项目拖欠工资暂停。武汉弘芯将内地唯一一台，使用价值5亿多元，可以生产制造7nm芯片的光刻技术，拿来银行抵押贷款复活。

不难看出，世界各国大模型之间的竞争，表面看，是数据集多少、品质多少之间的竞争；略微深层次了看，是模型加工工艺的较量；而再渗透到最底层，就会变成不同类型的商业文化，甚至生态系统综合性市场竞争了。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.miyuegong.com/kejiwenda/68711.html

反思国产大模型的作文，做模型的泡沫板叫什么

相关推荐

联系我们