1. 首页 > 科技资讯

这家公司运作了两年之后倒闭了翻译,ai领域实力最强公司

创业邦(ID:ichuangyebang)原创设计

创作者丨洪雨晗

编写丨昝立永

题图丨unsplash

中国又一AI行业的大牛公布涉足大模型行业自主创业。

3月19日晚,创新工厂董事长兼CEO李开复朋友圈发布消息称其已经亲身筹组 Project AI 2.0,一个致力于打造 AI 2.0 全新升级平台与 AI-first 生产主力运用的经济全球化企业。李开复觉得现阶段的人工智能化应用,仅仅只是AI 2.0 水平的开始,但在它的方案中,Project AI 2.0 不仅需做汉化版 ChatGPT,更应去引领全球的人工智能化的浪潮。

李开复表明:“AI 2.0所带来的平台模式机遇将比移动互联大十倍,这是中国第一次迈入服务平台竞逐的好机会。新渠道上每个用户通道和页面都会被重新写过,可以创建下一代平台上的企业可能获得极大优势和主导权。”

上星期是人工智能领域迄今为止最疯狂一个星期,从GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,再从礼拜天晚李开复微信朋友圈公布“英雄帖”,人工智能领域的一枚枚大杀器令人目不暇接。

在模型及其ChatGPT消息霸屏,各AI行业的大牛聚集向国产大模型发起挑战之际,其实也有一家公司在几个月前ChatGPT火爆之际早已赚麻木了。

站上风口,老天爷喂食

从上星期微软公司官方宣布,将Microsoft 365服务项目全方位连接对话机器人技术性AI Copilot,以海天瑞声为代表数据标注公司上涨幅度就已经超过15%,如果把时间轴增加迄今年1月份,海天瑞声股价已经从当年的每一股60元左右疯涨至每一股近200元,股票价格翻三倍多。

就算海天瑞声应急发布消息做出风险防范:“自然语言理解业务流程对企业整体奉献大概在10%上下”“企业并未与OpenAI进行合作,其ChatGPT产品和服务并未给他们带来经营收入”,但资本市场激情依然不降,企业股价一直高位彷徨。

金融市场对以海天瑞声为代表数据标注公司的钟爱不难理解,有投资者打趣道:“有实物产品就是不一样,AI这三个月的人气超过元宇宙概念三年里积累的人气。”在ChatGPT火爆之际,有关相关概念股肯定也是节节攀升,何况依据海天瑞声的招股书显示,其核心客户信息含有Open AI其背后的投资管理公司微软公司身影。

换句话说海天瑞声尽管没有给ChatGPT总公司Open AI提供一些数据标注服务项目,但是其在投资者互动服务平台表明微软公司一直是企业很多年签约合作头部客户,而且除了微软公司外,百度搜索、腾讯官方、阿里巴巴、字节数等国内有能力做汉语大模型的互联网大厂大部分都是海天瑞声的重点客户。

海天瑞声可以说是非常好运,尽管没去有意寻觅时期风口,但是其自2005年自成立以来却多次乘以人工智能化暴发的契机,完成了飞速发展,自然,这跟海天瑞声创办人贺琳的专业技能环境紧密联系。

据资料显示,海天瑞声创办人贺琳是68年出生的,从北京大学毕业后就一直在中科院声学研究所,从业语音识别技术、语音识别、汉语语言了解、视频语音心理学测试等领域的研究工作中,依次参加了“中文人机对战语音对话工程项目”、“汉语语音主要参数生成”等自然科学基金重点项目建设。

贺琳35岁开创海天瑞声原因在于基本功训练数据信息的缺失:“那时候我认为这是将来的一个方向,毕竟大家在工作上都是会碰到这样的短板。一些企业的研究者更愿意致力于做优化算法,但又没有数据信息。”

海天瑞声创立前期主要是针对视频语音收集及使用层面的项目,非常明显,凭着贺琳的专业技能文化底蕴对收集的开源系统视频语音开展二次加工,也由此海天瑞声在语音识别层面积攒了浓厚科研成果。

伴随着人工智能行业的飞速发展,数据标注练习市场需求逐渐不断涌现,海天瑞声扩展了经营范围,在训练样本方面进行项目研发,并在这段时间拿下微软公司、百度搜索、三星等各大顾客。

“我们自己的很多顾客全是国际性大型科技有限公司和头顶部人工智能企业,你的产品必须营销推广在世界每个角落,因此产品中的语言/语言能力也要可以配对之而规划的地区区域。”贺琳表明,伴随着人工智能行业的进一步发展,海天瑞声的订单量激增,依据海天瑞声2022年中报,其在中国市场份额达12.9%。

还可以火多长时间?

贺琳曾向外表明:“信息是优化算法发展与演变的‘然料’,优化算法、算率、数据信息这三个因素一定要相互之间功效,才能使AI领域得到发展趋势。”

AI数据标注是练习AI大模型环节中必不可少的一环,AI数据库的处理方式还有对数据收集整理、原始记录清洗及其进行数据标明,数据标注一般被称作没什么技术含量“dirty work(脏活)”,由于数据标注仅仅只是职工对文字、图象、短视频进行筛选区划,把数据转换为设备模型可以接受的信息内容。

海天瑞声的NLP数据标注服务项目,彩色图库:海天瑞声官方网站

早期AI模型训练有一个广为人知这样的说法——“有多少个人工,就有多大智能化”。举一个典型的例子,一个AI模型需要懂得鉴别狼和狗的影像,那样一种方法是先用人工鉴别标明好一点的数据信息进行筛选,来养AI模型开展学习,AI模型能力越高,身后人工付出的努力也就越多。

因此此项工作对人力资本基本没有规定,因此很多公司把此项工作外包给第三方。像Open AI就把一部分数据标注工作中外包给澳大利亚劳动力,但是因为办公环境槽糕,加上实惠的工资,进而被很多新闻媒体指责。

Meta顶尖人工智能化专家Yann LeCun就曾经评价ChatGPT称:“(它)并不具备创新能力,都不具备颠覆性……它只是一个恰当的搭配”。

实际上不仅仅是Open AI,中国许多专门数据标注企业都是开设在十八线的城镇都市,国内媒体《三联生活周刊》就会有一篇报导专业讲的是黄土高原地区镇上的一群宝妈妈变成AI宠物训练师。哪怕是海天瑞声也是如此的把它最基本的数据标准化、标明公司外包给第三方。

可以这么说,很长一段时间至今,AI数据库的处理标明其实就是一个简单人力资源“竞争”生意。谁人工比较便宜,就有机会接出更多的订单信息,谁人力资本大量,就有机会收到更多的数据文件标明工作中。

但是,伴随着行业对ChatGPT科学研究越大,发觉传统数据标注工作中已无法撑起GPT-4这种人工智能化模型,GPT-4也可以根据人工注明的意见反馈结论来逐步完善本身模型,更专业的标明、评定评价反馈等同于ChatGPT演化过程里的奖赏函数公式。

海天瑞声CV标明,彩色图库:海天瑞声官方网站

许多志于本身打造出汉语世界大模型的公司已经已经意识到这件事,不会再业务外包数据标注工作。许多标明师工作就从图象是猫或是狗成了一些涉及到意识形态领域和思想判定的工作中,在一些专业细分行业还涉及到了行业Know-How,工作中门坎已经开始提升,一般标明师开展简单的图像、文本区划已难以完成这一部分工作中。

这种变化已经开始现在对AI数据标注领域导致了冲击性,尽管在人工智能化迅速发达的今天,一部分初期的一般数据标注要求仍然存在,但数据标注企业需要长期发展,那就需要在无监督(含自监督)、半监督的机器学习算法上面有资金投入和积累,还要不断提升数据标注师综合素质能力,更新自已的人才队伍,而并不只是外包给人力资源成本较低的第三方。

从“dirty work”过有一定技术门槛工作,没有人能平躺着赚到钱,海天瑞声想继续站在风口上,务必采取行动起来。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.miyuegong.com/kejizixun/64678.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666