文章转载自数字生命卡兹克,作者:卡兹克
你有没有想过,当你在网上进行简单的验证码操作时,其实你已经无意间成为了一名「标注民工」?
昨天晚上,我在登录 QQ 邮箱和 LOL 官网的时候。
发现腾讯的验证码变了。
不再是之前的验证码了,而是变成了一段 Prompt 加六张 AI 生成的图。
右下角赫然写着:
图片由混元 AI 生成。
腾讯,终于把用验证码做标注的手,伸向了他那 12 亿的用户。
拿验证码当标注系统,让用户免费标注,其实在远古时代,就已经不是什么新鲜事了,但是用生成式 AI 来跟验证码做结合,这确实还是我,所看的头一回。
先说说验证码这个东西。
这玩意从最开始发明起,其实只有一个目的,就是为了区分机器和人。
简称「CAPTCHA」,全称就贼长了,「Completely Automated Public Tuning Test to Tell Computers and Humans Apart」
翻译过来是,「全自动区分计算机和人类的图灵测试」。
你看看,图灵测试。
刚开始,有个斯坦福公益验证码系统,reCAPTCHA。
它最成名的项目,就是用验证码来数字化海量的书籍和旧报纸。那时候的 Ocr 真的不咋地,而且很多年前的书和报纸那糊的真的差强人意。
当时,reCAPTCHA 系统会向用户在验证码上,展示两组扭曲的单词,其中前面的一组是计算机已经识别的,另一个是计算机难以识别的。
如果用户正确输入前半部分,那么 reCAPTCHA 就会假设用户输入的后半部分也是正确的,然后把录入结果返回至 reCAPTCHA 的项目主机。
结果返回主机后,主机还会把这个结果再派发给多个用户进行交叉验证,以确保没有不小心或故意输错单词的情况。
他们用这个系统,在十几年里,数字化了几千万的书籍和报纸。
本来一切都挺美好的,然后,Google 下场了,他们把 reCAPTCHA 给收了。
没过多久,就让用户开始识别,Google 街景中,那些难以识别的门牌号了。。。
这其实,就是明晃晃的让你当标注民工,无偿来给标注训模型了。
Google 那时候几亿用户,每天验证码会被调用上千万次。
这大概就好像,让几百万个人每人为给你干 5 秒钟活儿,然后一分钱都不给一样,你说这是不是已经,把白嫖玩到极致了。
直到后面,离谱的东西越来越多,你要标注的东西,也越来越多。
比如这些奇奇怪怪非人视角让你选一个 bus 的照片。
当然最离谱最好玩的,得数 15 年的 12306,当时开脚本抢票的太多,12306 的流量压力实在太大,被逼的开启了神迹级的验证码,据说人类首次正确率仅为 8%,得错 3 次以上的人占比有 65%。
这种逆天验证码的题目是这样的。
刘慈欣我不敢打包票,但是范伟我是全认出来了。。
时间走走停停,一眨眼,来到了 2024 年。
为了自己家的混元大模型,腾讯也把手,伸向了验证码。
让我们开始,来做 AI 绘图大模型的标注了。
这部分的标注,其实不是啥图片美学质量的标注,而是对于图片理解和映射的标注。
通俗地讲,就是语义理解。
现在做的,还是最基础最简单的分类,我们标起来,还是挺轻松的。毕竟里面都知道,左上角是鸭子,中间是老虎,左下角是蜜蜂,右下角是赛车。
而那两张白杨树林,其实,你选任意一个,或者选两个,都能过。
比如我这个图:一簇在悬挂花盆在生长的多肉。
其实你会看到有两张都跟多肉有关,而根据定语,一簇,更符合左上角第一张图,右上角那个其实不是一簇是一堆,但是我选了他,依然能过。
而你想把两个都选,你也都能过。
所以这个标注之心啊,一点都不藏着掖着。
但是确实这个做法很有用,比如还是这句 Prompt,真正核心难点是一簇。
用这种方式,对整体的语义理解,确实有非常大的帮助。
而且现在明显还是初期,给的 Prompt 和图,都非常的简单,标注的难度也不高,甚至一些大厂的标注模型直接机标可能都应付的过来。
但是如果下一次,是「 一只在清朝宫殿里生长的杜鹃花 」呢?
一只、清朝宫殿、杜鹃花。难度直接拉满。
甚至另外几个选项给你的也不是差异这么大的动物汽车啥的,给你的都是菊花、杜鹃花、喇叭花、玫瑰花,来吧你就选吧,加油啊标注民工。
要知道,标注真的很贵的,之前跟国内一家做 AI 绘图大模型的公司聊过,才知道他们标注分为机标和人标, 而人标的成本,大概是数据量的十分之一。
也就是你拿出去 3000 万的数据,人工标一次,就得 300 万 RMB 干出去。
而腾讯 12 亿用户,每天验证码起码也是千万的量级,这标注费用,你可以算算这省了多少钱吧。
所以说,大厂在如今还在大数据的时代,优势是真的大。。。
不过这种标注,目前来看还是只能解决语义理解的标注,但是能把这个解决也已经很牛逼了,虽然美学一般,但是语义理解能达到极强,这就是妥妥的国内版 Dalle3。
而 Dalle3 的短板大家肯定也清楚,实在太丑了。
而要标美学表现,难度其实就大很多,真的得找懂设计、懂美学的人来标注。
Midjourney 当年其实就是吃了这波红利。
第一波获得用户,而且获得的还是一大波的有美学背景的专业用户,然后每次你生图的时候给你生成4张图拼一块的一张整图, 你还必须选一张你觉得最好的进行提取或优化。
这就是一种强行的数据标注。
所以 Midjourney 在如今的美学表现上一骑绝尘,是因为他们在美学的标注上,做的太好了,而别的家想在这块赶上,基本不可能,因为最高质量的那波用户,基本已经全在 Midjourney 那了。
而腾讯未来想做这件事,其实在我看来,还真是有可能的。
因为你其实看 Midjourney 的路径,核心点就一个: 海量的专业用户。
腾讯缺专业用户吗,怎么可能会缺,12 亿用户捏在手上,用户画像做的那么齐全,我想把有设计师背景的用户挑出来,难吗?一点都不难。
我想给挑出来的这些设计师背景的用户推送美学标注的验证码,难吗?也不难。
所以啊,现在在我看来,腾讯的验证码标注,才刚刚向前迈了半步,后面的模型空间,还很大。
唯一问题就是,腾讯内部有点封闭,用户画像数据 PCG 做 QQ 的那边肯定有,但是混元跟 PCG 不是一个事业群,也不知道能不能拿得到。。。
能拿到的话,那就是王炸。
但是不管怎样。
你我都已经,身在其中了。
10 年前,就已经是了。
早些年,宽带刚兴起,有线为什么不利用已连千家万户的机会发展宽带?
本行业问题,我来回答。
这个问题比较有意思,广电是有机会发展宽带的,只不过被叫停了,错过了最好的机会。
中国的宽带是从2000年ADSL进入中国的时候开始建设的,在ADSL之前的宽带是窄带的2B+D的ISDN,带宽只有128Kbps。2000年,法国的阿尔卡特公司把ADSL技术带入了中国,才开始了中国的宽带建设,那个时候的互作的运营商是电信局,也就是现在中国的运营商们的前身。
ADSL是可以在双绞线(也就是原来的电话线)上达到上行1M,下行8M的技术,是中国最早的宽带。
当时的广电的宽带是cable modem,是完全不次于ADSL的宽带技术。当时的cable modem给中国电信的宽带带来了很大的压力。
但是那时候广电没有电信业的牌照,成了最大的软肋。
广电的宽带计划因为牌照问题而被叫停了,失去了占领宽带市场的最好的机会。
广电的电信业牌照是2016年才取得的,才正式成为了中国的第四家运营商,而在这个时候,三大运营商的固定宽带已经发展到百兆光纤入户了。不过话又说回来,就算当初的广电得到了发展宽带的机会,广电当时的一地一网的组织结构也未必可以打败全国一盘棋的电信运营商。 不过这些都是假设了,如果当时真的有了竞争,结果也可能不一样也说不定。
主要还是贪婪,广电其实有宽带的,但是为了限制用户一带多用,又是绑定mac又是必须专用路由器,害的我用了俩月果断放弃,后来广电换了数字电视后,想一口一个胖子,搞成一机一盒一收费,结果因为费用被人民抛弃!说到底,还是贪婪造成今天局面。
在互联网时代,有线电视要面对的早已经不再是发展的问题,而是生存的问题。
如果在20年多年前有人说有线电视会被宽带取代,绝大多数人一定会嗤之以鼻。 就好比过去满大街都是诺基亚的时候,谁都不会想到有一天它会彻底的淡出我们的视野。
在《中国广电2016年第二季度有线电视行业发展公报》中显示:2015年有线电视用户数量达到万户,触及天花板后增速开始放缓。 2016年上半年有线电视用户仅增加268.9万人,不到2015年增加用户数量的五分之一。
网络视频对传统电视造成了极大的分流,很多用户用着用着就不再愿意付费了,甚至于电视屏幕开启的次数也逐渐减少。 据《第38次中国互联网络发展状况统计报告》显示,截止2016年6月,我国网络视频用户规模达5.14亿,其中85.7%的视频用户分布在手机端。 手机网络视频用户规模为4.40亿,与2015年底相比增长了3514万,远超有线电视用户增长速度。
优酷、爱奇艺、腾讯视频、西瓜视频等互联网视频企业也在不断拓展自身的产业链,进一步的将观众从有线电视中带离。 人们已经从传统的电视流中脱离出来了,随时随地都能快进回放视频,有线电视的有线加机顶盒的模式似乎已经不再适应时代的发展。
广电有线电视的没落可以说是从三网融合开始的在过去,电信公司只能安装固定电话和宽带,移动运营商只能提供手机服务,而广电只能安装有线电视和卫星电视。
2010年1月13日,国务院召开会议决定推进“三网融合”,明确提出加快推进广播电视网、电信网和互联网的三网融合,并在会议上明确了三网融合的时间表。
一直到2016年广电才获得基础电信业务经营许可证成为第四大运营商,广电虽然拿到了4G和宽带业务牌照,但市场和用户早已经被电信、移动和联通基本抢光了。 而电信、移动和联通却可以凭借着诸多的先入优势,借助三网融合的政策,大力开展IPTV业务,杀入广电的电视领域。
试问用了好几年的手机号码,怎么可能换到一个没有自建基站的运营商那里,再便宜也不敢用;宽带就算换一个也便宜不到哪里去,稳定最重要。 2019年上半年,有线电视用户总量就净减少385.6万户,降至2.19亿户,而IPTV用户数量达到了2.81亿户,超越了广电。
总结广电虽然在组织架构上很强大,但主力很分散,实际主体是各个省的广电企业,无法在资金和规模上形成合力。
广电的有线电视网络是传统的HFC网络只能单向传播,用户没法互动,要进行双向改造就需要耗费大量的时间和资金。 广电虽然获得了宽带牌照,却还是需要租赁电信企业的带宽和互联网出口,成本高且没有优势,而电信企业原本就有双向功能的电信网,开展IPTV业务是极其容易的。
所以广电只能眼睁睁地看着电信企业争抢自己的电视业务,而却没有办法从电信企业的宽带业务夺取一大块肉,只能喝汤。 更别提短时间内发展起来,形成竞争优势。
以上个人浅见,欢迎批评指正。
广电当年就是一群零散分散在全国各地的小运营商。 广电发展的初期有各种模式,只有城市里的相对集中一些,但基本控制权在县市公司手里,一个几十万户的城市怎么能发展起来?电信业本身讲究的就是规模效应。 太小了,设备采购没有谈判权,成本更降不下来。 所以只有大中城市的广电形成规模,深圳天威 浙江华数 北京歌华。
广电做事情的出发点在哪里?是服务吗?不是 是首先确保党的宣传顺畅。 遇到矛盾,市场化的自然就让位了。 而考核什么就做什么 是最简单的问题 ,所以给什么广电都做不起来。
电信广电老民工来回答一下,原因比较多,技术的,经济的等等。 说几个核心原因吧,技术上,ADSL利用既有电话线,原生双向免换线,星形结构可以提供带宽独享,而有线电视网是总线型结构,带宽是共享的模式,原生单向,要做宽带需要做双向改造,当时甚至现在很多地方的同轴电缆放大器等等都不能满足双向业务的要求,这就导致做双向改造投资巨大,这不是当时的广电能负担的。 其次当时广电紧紧抓着宣传可控的旗号,以意识形态为政治筹码要挟政府不能放开iptv业务,这就导致电信和广电因为各自的利益不愿意向对方开放市场,最终演变成现在的局面。 最后,广电从上到下都是政府事业单位的思维,他们每个月收有线费用很舒服,根本不在乎是不是可以开拓新业务。 我2012年去北京歌华做技术交流,对方的高层直接说我们每个月收有线电视费收一个亿,根本看不上宽带那点钱。
可以躺着收钱的时候,为什么要动。
互联网接入市场,是一个相对开放的市场,早些年一度拥入许多市场主体,除了几家电信、联通、移动几家运营商外,广电也试图凭借接入网络优势一展拳脚,此外还有长城宽带等 社会 运营商加入混战,令人眼花缭乱,激情澎湃。
但时至今日广电的宽带市场占有率仍然很低,宽带市场仍然是三家运营商唱主角。 2020年第一季度广电宽带用户总量为4186.9万户,季度净减少57.7万户,首次出现负增长。
社会 宽带运营商的宽带用户也在萎缩,2019年长城宽带甚至被被100万元贱卖,移动反而成了宽带接入的老大,其次是电信,再次是联通。广电宽带发展缓慢的原因主要如下:
由于 历史 的原因,1990年代互联网兴起之初,原中国电信率先接入国际互联网,并建设了通达全国的宽带骨干网络和数据机房,从固定电话拨号年代就开始经营互联网业务,发展了中国第一代网民。
互联网服务商的服务器也都托管在原中国电信的机房,通过专线接入中国电信的网络。 2002年电信南北分拆后,互联网骨干网络一分为二,中国电信在南方21省居优势,中国联通(分拆的北方电信后与联通合并)在北方10省有优势。
而广电虽然有接入优势,但互联网上的服务器都在电信和联通,如果不对接电信和联通网络,用户几乎什么都干不了,对接就必须租用电信和联通的专线。
广电又不舍得大量租用电信联通的专线,导致广电宽带的用户体验很差,看广电的电视节目没问题,一旦联网打 游戏 ,看视频就卡顿缓冲,严重影响业务发展。
广电属于地方政府管理,有些地方网络还上市了,大部分网络属于县、区政府,到现在开发商建小区,还需要缴纳给广电网络配套费用。 广电虽然成立了广电网络,但仍然难以整合各地方的网络资源,无法有效的形成统一解决方案,统一开展业务。
广电靠着有线电视躺着就能挣钱,也没有太大动力发展宽带。 反而是几家运营商竞争的激烈,把手机、宽带、电视打包成家庭融合套餐,为了发展手机业务,相当于向用户送宽带和电视,几家运营商反而夺去了不少广电的有线电视用户。
移动的宽带业务本来也不行,前几年凭着财大气粗的优势,大力建设宽带网络,只要是移动手机用户,办理了包月套餐就可免费使用宽带。 移动不计成本的向用户赠送宽带,从电信和联通手里抢了大量客户,一跃成为宽带市场老大。
移动的做法要在国外可能就算是滥用手机市场的垄断地位,搞不公平竞争,国内反而没人管。 移动的宽带虽然同样存在出口问题,但人家相当于宽带没要钱,还是很多人选择了移动宽带。
如今宽带月租已经大大降低,成为手机套餐的赠送产品, 社会 上的宽带运营商已经没办法竞争了。
但广电并非一无所获,广电还有电视播控权,运营商发展的电视业务,大部分的收入都结算给了广电,广电毫不费力赚的盆满钵满。
而且宽带市场,联通由于在南方的接入资源不占优势,许多地方选择与广电合作发展宽带业务,广电仍然可以获得结算收入。
广电就是一个废品,臭不要脸东西,价格太贵了,这几年农村广电,现在移动联通都进来了农村市场,估计广电没有他们的事,我们这里今年移动联通都有了,我准备不会用废品广电,十年数字电视三百块一年,不降低,不好好反思反思,死有余辜,没人同情。
个人认为是技术和政策两个方面,政策是主要的,现在国家允许二级运营商的存在了市场需求大了,技术成熟了自然做宽带的就多了,随着时代发展老百姓也相信这些私企了,早些年也只有广电做视频么
这是当时两大集团博弈的结果。 如果在宽带发展初期,让广电介入根本不会有电信什么事。 10兆对256kb,傻子都知道如何选择。 但国家出面禁止了广电几年。 之后再进入时,市场已经失去先机了。
有哪些看似不起眼但很赚钱的行业?
早餐行业绝对是很赚钱的行业,比绝大多数白领赚的多。
我说的早餐行业,不是出摊的手抓饼大妈,也不是赶着电动车的鸡蛋灌饼阿姨,就是普普通通卖豆腐脑烧饼的早餐店。
我们小区的门口有两家这样的早餐店,只提供豆腐脑和烧饼,豆浆是免费的,每家每天大概能卖2~3桶豆腐脑。
你觉得像这样一个早餐店,每天能赚多少钱呢?一般人也就认为能赚个三五百块也就差不多了,可实际上比这个多多了。
每碗豆腐脑的价格是1.5元,2~3桶,最少也得300碗左右,这三桶豆腐脑的成本绝对不超过150.,剩下的全都是人工费。
烧饼就更不用说了,1.5元一个的烧饼,老板最低也得赚一块,还不算鸡蛋、加肉等额外收入,日纯收入平均也得在1000~2000块钱。
去除各种费用,老板每个月估计也能剩两三万,一年可就是二三十万,这一年能顶我好几年的工资了。
不过早餐店确实是个辛苦活,一般人还真干不了,早上三四点钟就得起来做准备。 只做早餐和午餐两顿,下午就关门休息。
我们门口开店的这两家老板,车都是30万往上的,可平时也是在店里边忙,一点都看不出来是年收入几十万的大佬。
可能大佬们总是很低调吧,我每次去吃饭的时候,都很羡慕他们,也曾经尝试过想干这个东西,可早上真的是起不来。
越不起眼的行业越赚钱,因为这种行业的参与人数比较少,就算是你知道了,也未必愿意去干。
你愿意每天早上三四点钟起床来干活吗?一年365天,至少也得工作350天,其中的辛苦,不去干永远也体会不到。
这就是为什么大家都明明知道很多行业赚钱,可这么多年过去了,我们还是这么穷,那些行业里的人还是那些。
好了,不羡慕别人了,做好我们自己手头的工作,踏踏实实搬砖挣钱吧。 谁的钱都不是大风刮来的,你不能只看到别人挣钱,看不到别人吃苦。
怎样才能把想要报光的新闻发在网上!而且要全国人民都知道的那种!就像腾讯新闻那样
在各大网站的论坛微博上发,比如新浪、腾讯、人民网等,要有图像、真实性,有吸引人的地方,自然传播的快,还会有专门记者会联系你的。