人工智能大模型卷曲:数据标示“铁路职工”八千不过5000,总价从5毛降到4分宝宝半夜醒来“爸爸你压着爸爸干什么”随后爸爸的回答,令人难忘
相片来源@Kunming
文 | Tech地球,作者 | 王琳
郑雯至今记得几个月的下午,这天,她两个半小时就赚了2块钱。她毕业于湖南的一所专科学校,是一名大数学模型统计数据标示师,每天的组织工作并不复杂——给自己领取的原始统计数据(如图像、视频、文本等)添加标签。
但大数学模型对于统计数据的产品质量明确要求很高,这天当时一张相片被明确要求反复修正了8次才透过,整个修正过程花费了两个1半小时。也就是说,她这两个半小时只赚了2块钱,而正常情况下能赚到12块,能拉600个框。“钱并不好赚”,她反复强调。
这基本上是大部份统计数据标示专业人士的共识。统计数据标示的一端承载着专业人士们不足5000元的月薪,她们如蚂蚁雄兵般构建迪阿尔库数学模型的基石。而另一端则是网络小厂们的AI梦想,她们希望借此超越Chat GPT 4。
统计数据标示采用最原始的非控制技术制算薪水,并不存在职场上的勾心斗角。唯一的苦恼这本过于乏味的组织工作,让她们中的绝大部分很难坚持完3个月。并且,基本上大部份人都告诉Tech地球,你最合适别去。
可她们不知道的是,要不了多久,她们中的绝大部分可能会失去这本乏味的组织工作。即使,那些简单的统计数据标示将会被AI取代。
从5毛到4分,产品价格暴跌林双在2017年赚到了一笔“快钱”:15天6000多元化。对于本科毕业的林双来说,这个总收入着实可观。那是人们对AI期望爆棚的这时候,基本上没人怀疑过它的未来,大部份的投资机构都坚信这里能诞生十亿、百亿甚至千亿体量的企业。
基本上大部份AI控制技术的背后都是演算法、INS13ZD、算据的竞争,巨大的统计数据是控制技术好坏的底层。背景光鲜的程序员们坐在“北上广”的办公室里,透过代码迭代演算法描绘AI蓝图,而Ins13zD、陈晓东等在三四线城市的格子间处理巨大统计报文中的相片、文字、语音等。
ChatGPT也不例外。一名百度聚花一言项目组的雇员称,大数学模型本身并没什么新控制技术,也没太高的控制技术控制技术壁垒,关键的问题是INS13ZD控制技术壁垒形成的参数控制技术壁垒。
大数学模型时代的统计数据标示员和以前的也并没特别大差别,为数不多的差距可能是更加舒适的办公环境和对标示产品质量的更高明确要求。一名统计数据标示的专业人士向Tech地球介绍,一般刚刚入行时,她们会重新组建两个10人左右的团队,这其中有两个人承担质检组织工作,假如不合格,就要雇员打回去重做。而统计数据的产品质量则决定着大数学模型的好坏。
统计数据铁路职工们也并不关心,AI控制技术又有什么新的分支,她们更在意的是总价,即使这里是非控制技术算薪水。
“那会儿总价高的这时候,拉两个2D框就有1毛多,我最低的这时候干了10多个半小时,一天就赚了600多元化”,林双回忆道。但是,这不是最低的,一名标示相关人员称,早期2D拉框的产品价格最低能达至5块钱。
拉框是统计数据标示中常见的一种操作,标示员根据明确要求对相片中的物体,如车辆、红路灯、障碍物等图章标示。拉框分为2D和3D,后者的产品价格会更贵一些。
但这种热度并没持续多少,伴随着越来越多人涌入以及AI金融行业整体发展的不如顺利,标示两个相片的总价越来越低,林双称现在最低的只有4分钱。
“假如是拉框,金融行业的平均总价是在0.15元左右,但还是要看项目,假如自己能收到单,收到一手单的最低明确要求应该是100个入职雇员,那体量挺大,3D的框有可能达至3块钱两个,但是很少能有达至5毛的。”
当然,假如你本身具有医疗保健、金融方面的专业知识,那么总价则会更高。比如,很多医疗保健大数学模型会明确要求标示员有是临床专业,且有相关从业经验。
绝大部分专业人士每一月的总收入都但是5000元,其中也不乏少数的幸运儿。杨硕本来在四川经营一家服装店,但疫情影响了他的生意,他在今年转型做大数学模型统计数据标示,现在,他每一月有8000元总收入,“我是和子公司签了合约,交了9500元的会员费,合约里写着每一月最低收益是7000元。”
究竟谁赚到了钱阿里、腾讯、字节这样的网络小厂,以及上汽、领克等车企是统计数据标示业务分发的根源,想要以最合适的产品价格直接从根源获取订货,统计数据标示子公司们须要具有一定的体量。
一名统计数据标示子公司雇员对Tech地球称,她们直接从小厂拿到订货,但是小厂明确要求她们得有500人,因此她们会选择透过转投或是控股子公司的形式来达至相关人员明确要求。
二者的差别是转投适用于初入行的人重新组建梦工厂,假如要成立控股子公司,一般两个区域就只有一家。小白梦工厂须要收会员费,2.5万或是3万。控股子公司是两个区域的独家代理商,须要缴纳5万费用。而她们能三年以内保证订货的充足,并负责3年内的控制技术培训,这些梦工厂或是控股子公司们组成两个大的工会组织,几百到几千不等。
上述统计数据标示子公司雇员称,大数学模型的火热再次将统计数据标示金融行业推上热潮,现在基本上每天都有人去她们子公司拜访。
但事实上,经营两个统计数据标示子公司并不容易。统计数据标示子公司告诉你的是,这个金融行业前1到2个月比较难做,即使雇员须要爬坡期,前期只须要5-8个人就够了,40多岁的阿姨都没问题的。
稳定是统计数据标示子公司或是梦工厂最重要的因素。但是Tech地球接触的绝大部分标示雇员往往都即使乏味无趣在3个月内“光速”离职,新雇员并不是马上能到岗实操,相关人员流动性大的结果就是统计数据标示的产品质量和周期性不如稳定。缺钱的陈晓东是统计数据标示梦工厂最喜欢招纳的人群。
“找兼职肯定不行的,会有空档期,房租和电脑投入了,会亏钱,最合适的形式是全员廖蔚”,开过统计数据标示梦工厂的人魏铭向Tech地球介绍。
绝大部分统计数据标示子公司的回款周期性是3个月起步,最多半年,但她们须要以月付的形式给雇员薪水,这须要一定程度的资金储备,“两个人3500,100个人,3个月就是105万。”
张建曾经加入过两个又200多号雇员的工会组织。第一年,她们赶上金融行业的爆发期,2D拉框的总价高达5毛,那一年他所在的工会组织赚了400多万。
但是第二年,行情急转直下。标示的总价变低,雇员的流动性更快,空档期增加,再加上两个大项目都没结算,一整年过去,她们亏了300多万。“老板都说短时间内坚决不碰统计数据标示”,张建表示,“她们现在正在和上游打官司。”
这是利润微薄的生意。海天瑞声是目前统计数据标示金融行业内首家主板上市子公司,去年这家子公司有2.63亿元营收,利润只有2945万元,净利润率刚刚超过10%。但今年上半年,由于客户数量减少,这家子公司便陷入了亏损。
随时可能被替代的“螺丝钉”依靠着肯尼亚工人蚂蚁搬家式的积累,最终OpenAI的语言对话大数学模型能力脱颖而出。这些被称为统计数据铁路职工的普通人支撑起了山姆·奥特曼(OpenAI创始人)的AI梦,但假如不出意外,她们手中的绝大部分组织工作,很快就会被自己参与创造的新产品所取代。
在国外,Open AI 前雇员于2021年成立的Anthropic今年已经融资51.5亿美元,是其过去两年融资总额的7倍还多。这家子公司提供了一种新的方法,可在较少人工参与的情况下,便训练出数学模型。
今年,AI初创子公司refuel推出了两个名为Autolabel的开源工具,能使用市面上主流的大数学模型来对统计数据集进行标示。该子公司的测试结果称,Autolabel的标示效率相比人工标示提高了100倍,成本仅为人工成本的1/7。
在国内,一家名为视智未来的子公司也在打造标示大数学模型。她们在接受采访时表示,有些项目已经用GPT交付了,准确率方面达至了80%多,与人工接近。
但是,海天瑞声认为,AI一定不会实现完全的自动化标示,即使机器假如想要持续演进,使其更接近于人类的判断和理解,就一定须要人类作为引导。
基本上大部份从事过统计数据标示的相关人员,都向Tech地球透露着同两个观点:统计数据标示是两个没门槛的组织工作,只须要你熟练使用电脑即可。
但事实上,假如简单的标示能用AI来完成,那么人工参与的将是难度更高的统计数据筛选和标准组织工作,这也意味着金融行业的门槛将会不断提高,尤其是ChatGPT、聚花一言类的大语言数学模型。
作为对照,早在ChatGPT走红前,OpenAI就重新组建十几位博士生来“打标”。而百度在海口的统计数据标示基地拥有数百名专职大数学模型统计数据标示师,标示师的本科率达至100%。
这类大语言数学模型的特点是,标示员须要具有一定的知识储备和逻辑分析能力。根据《财经十一人》报道,标示师们须要判断问题类型,随后给5个回答分别打分并排序,分数区间为0-5分,假如打分低于3分,还要标示出具体原因,例如“答非所问(0分)”、“严重跑题(1分)”、“存在逻辑问题,存在事实性错误,比例较小给2分”等。
统计数据标示的另两个热门领域是自动驾驶。据德勤的报告显示,2022年自动驾驶领域的标示需求占整个AI下游应用的38%,预计到2027年,比例将上涨到52%。相较于大语言数学模型,对于自动驾驶领域的数学模型而言,那些简单的拉框操作依然有着较为宽松的学历明确要求。
标示员们是人类从移动网络时代到人工智能时代的基石,Tech地球接触到的绝大部分专业人士大多不清楚AI将带给她们那些改变,也不知道她们为了AI的发展做出的贡献,她们只是网络时代的新一代螺丝钉,而且随时可能被替代。
(备注:文中人物皆为化名。)