什么是chatgpt原理 老板想知道ChatGPT的原理,我流了一身汗...
用老板们听得懂的方式,最大可能的描述真相,以及他们感兴趣的部分
再介绍一次
是由人工智能研究实验室在2022年11月30日发布的全新聊天机器人模型,该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练,所以这里来翻译翻译:
GPT: Pre- ,生成式的预训练模型;
这里需要用其老板听得懂,并且最接近真相的方式对三个词语进行一次分解,其中G和P都是作为T的定语而存在,所以这里的核心是。
是一个基于机制并且可以并行处理的神经网络架构,他的核心的功能是通过编码器,将人类语音解析成机器可以理解的数字,并且根据存储的参数,通过解码器生成我们符合预期的结果,参数量越大,这个结果越准确;
其中参数最初是人类打标签辅助形成的,其后是通过强化学习+奖励机制自动生成。
的意义在于,以前很长一段时间里,大家都觉得非精确的模糊化语义很难被突破,但出现之后,一下把NLP精度提升到了无法想象的量级。这时所有人的研究方向全部都开始转向了,这是一个里程碑式的改变。
咬文嚼字
有时候老板会咬文嚼字,比如其中他一个问题就给我整懵了:pre-和有什么不同?
大多数深度学习方法都需要大量的标注数据,在NLP领域中也是如此,但是标注数据毕竟是稀少的,大部分数据肯定还是非标注数据,那碰到非标注数据该怎么办?一种解决办法就是pre-。
他通过网上数据大量预训练,得到大量可用数据,训练完了就从变成了,可以粗暴的认为pre-代表的就是已经调整好了的参数极其可能性。
而我在网上找了很多,貌似没有这种解释,我理解他可能真正想问的问题是机器是否有能力像人一样做自我判断,这里的结论是:在没有足够数据训练的基础上是不能的。
另外,人类本身在没有足够信息输入的情况下,也是一本正经的胡说八道,比如今天大家问我一些GPT不知道的问题,我也只能根据以往输入的知识,给你一顿胡诌。
所以,进一步的核心问题就是:是否觉醒?
是否觉醒
关于是否具有逻辑能力,有两种观点:
极致的模拟就可以实现逻辑。基于统计学,看起来有逻辑其实就等于逻辑本身;
所有模拟都只能得到大概的正确。最后还是要建立在极其精准的规则之上,而规则做不到100%;
这里的分歧点是统计和规则的区别。但有个说法很有意思:人的所谓逻辑能力,说到底也无非是通过直觉,跳过两三步来推演出一个结果,如果真到了六步七步的推理,我们光靠一个大脑也解决不了,也需要草稿纸和计算器,换句话说,人类也是要通过外部工具来增强逻辑能力的。
从这个角度讲,今天所涌现出来的逻辑能力和人是其实差不多的。
什么是模型,翻译翻译!
后续老板继续追问,“你一直在说GPT模型,他到底是什么”?
PS:额,这个就真的很汗了,因为我看了几天真没看太懂...
什么是模型,模型就是参数+架构:
架构是控制数据流向和处理方式的基本过程;
参数是人工干预+强化学习后的组合可能;
好的架构+足够的参数,就形成了无数的猴子+无数的尝试,最终暴力解锁形成了李白的篇章。当然老板说想要了解原理,于是我们可以看看这个图:
大家不用勉强了,光是这张图我看了2天才看懂一点,以各位的智商绝无可能短时间看懂,这个时候我们再次使用强行解释法,这个是我认为(已经阅读材料中)最好的回答:
说老板听得懂的话
想象一台收音机,有一个旋钮,往左调噪音变大,往右调噪音变小,我们根据噪音的大小来调节旋钮,直到听清。
想象另一台收音机,有一亿个旋钮。一亿个旋钮,咋调?我们人类可能就懵逼了,但是这台收音机自己会调,这样一台会自己调节一亿个旋钮的“收音机”,就是人工智能(计算机)。
为啥需要有一亿个旋钮呢?
因为普通收音机的任务是为了收听广播,而我们这台收音机的任务是要生成文字。旋钮越多,效果越好。这些旋钮控制了生成的文字。
那这台计算机是怎么调节这些旋钮的呢?
首先,调节旋钮的过程,需要大量的句子。这些句子可能来自于书本,可能来自于互联网。计算机做的事情就是“阅读”大量的句子。
在计算机“阅读”的过程中,它被要求不断地“答题”,题目是根据句子前半段来猜测后面的词语。
比如说,下面的哪个选项更可能是后续的词语?
“老师走进教室,打开了讲台上的
”A. “跳跃” B. “窗户” C. “教案”
机器可能会选C,因为在大量之前的“阅读”中,它发现“教案”常常是跟着“老师”、“教室”、“讲台”同时出现的,旋钮已经调节到,选“教案”的概率是最高的。
公布正确答案,原文是“老师走进教室,打开了讲台上的教案,翻开了第7章。”
机器回答正确,加1分,接下来继续猜
“老师走进教室,打开了讲台上的教案
”A. “,” B. “。” C. “里面”“老师走进教室,打开了讲台上的教案,
”A.“翻开” B.“开始” C.”抬头”“老师走进教室,打开了讲台上的教案,翻开”…
...
以此类推,猜对加分,猜错扣分。每次算完分数之后,计算机就需要调节这一亿个旋钮,让生成的词语更接近原文。越接近原文分越高,分数越高越好。
实际的选项不止3个,计算机要从所有可能的词语中选,一般至少得有几万个。
这只是处理一句话,还记得我们前面说计算机要“阅读”大量的句子吗?是的,针对其中每一句话,我们都要重复上面的过程。
全部的句子都处理完之后,我们记录下每一个旋钮的刻度。之后有新一台的计算机,我们不再重复上面的过程了,直接copy这些旋钮的刻度就好。
这些旋钮的刻度控制了生成的文字,接下来我们给计算机一句,它之前从没见过的句子,它也会根据上面的过程持续猜词,这一次没有看答案、算分、调节旋钮的过程了。
这就是生成文字的全过程。
再来一次,什么是模型?
参数就是上文提到的旋钮。(理解:因为人类的世界实在太复杂了,目前还没有一个准确的“模型”能够将人类世界完整的描述出来,用不同的数据集训练出的“模型”也并不相同,也就是这里面有很多人们不能确定的变量或系数,可能大家也并不能理解这些变量或者系数有具体什么作用,但是没关系,只要能推导出结果就行)
架构就是控制数据流向和处理方式的基本过程。结合上文,收音机的这些旋钮并不是一字排开的,他们分成很多层,不同层级的旋钮之间有很多连接。这些层级和关联关系就组成了架构。
比如说同样的十个旋钮,下图中左右两侧的架构是不同的。在参数量(旋钮的数量)和参数值(旋钮的刻度)一样的情况下,架构不同,也会产生完全不同的效果。
所以,回答的真相是什么
通过训练, 获得了文本间的统计学规律。
例如: 当中国人说宫廷玉液酒, 下文有 80%的可能是一百八一杯, 有 20%的可能是你想说什么. 发现这个规律后, 会返回他认为概率最大的文本对提问内容进行补全. 这中间涉及了非常复杂的数学和统计学运算, 但最终结果是一样的: 大部分场景下, 可以补全出合理的文本
可以根据上下文理解语境,并生成合理的回答或接下来的句子...
然后,为什么 拥有这么强的学习能力, 却做不对三位数的加减法?
因为 获得的是文本间的统计学规律, 而非数学规律, 它并不具备数理逻辑的泛化能力。
对文本间统计学规律而言, 在学习时看到了很多类似于 1 + 1 = 2这样的文本, 所以当我们提问1 + 1 = ?时, 它可以正确的续写出2。
但对于不常见的文本, 例如82767 + 33251 = ?, 由于正常文本中不会出现这种数字, 所以 不知道后边应该补全什么内容, 所以会开始瞎猜----在人类看来就是会给一个错误的回答
毕竟, 它只是补全对话,但并不理解:
中间老板连续问了几个接近本质的问题,给我惊出一身汗...
到此,一般的听众脑壳基本在开始排斥接收信息了,所以后续还有很多点需要深入了解,比如、微调、计算机如何理解自然语言,神经网诺等等,就全部可以不展开,又会回到一些商业问题。
如何搭上GPT的车
要搞好GPT,其三要素为:算法、算力、数据。
算法是基础模型设计能力,好的模型能大幅提升效率,可以认为算法能力是三大能力中的核心能力,甚至可以造成降维打击的效果,这类人才多为巨头所拥有,可以忽略不计;
算力即是计算机本身的效率,这个核心与芯片有关,当前英伟达对国内进行限购,对我们大规模训练会有不小的影响;
数据即我们用以训练的数据,数据越多,数据本身质量越好,其生成的结果越准确。
芯片问题
GPT 的第一个版本的参数量只有 1.17 个亿,数据量 5G,在 8 个 GPU 上训练需要一个月时间;第二个版本参数量 15 亿,数据量 40G,PFS-DAY 是 7.86,消耗资源是在 256 块谷歌云 TPUV3 上训练一周的时间;
GPT3 参数量达到 1,750 亿,预训练数据 45TB,单次训练需要1024张NVIDA A100 GPU训练34天,是第二代的几千倍,成本 1,200 万美元;
这里就有一个问题了“我有100块A100芯片”代表什么?
现在一张芯片应该在8.5~9.5W左右,考虑升职空间一张芯片10w左右哇,他这里的价值应该是1000w左右了,但今天上午的消息,貌似都1300W了;
国内有个公司之前囤了 1 万张 a100,正在进行租赁服务;
阿里云与腾讯云也有相关服务,闲鱼也能搞,但是很是紧俏:
H100性能优于A100,并且新型号很快上市了,黄牛会想尽办法卖给我们;
摩尔定律:在价格不变的情况下,芯片中的晶体管数量每18个月翻一倍。意思是处理器的性能大约每两年翻一倍,同时价格下降为之前的一半。而当前的发展已经大大超越摩尔定律了;
综上,100块A100的价值有些鸡肋,数字上不上不下,时间窗口还很短,有概率应用还没做出来,芯片就更新换代了。
最后,普遍的观点是,限购并不是真的要让中国无芯片可用,而是要提高中国AI以及类似需要芯片产业的总体成本,并且拖慢中国的技术发展,这个我们可以做的不多,关于限购问题的一些解决方案是:
采用分布式的 CPU,性能上差一些,但是成本便宜,很适合做推荐算法模型的公司,比如抖音、快手、 等都是采用分布式的 CPU 做大模型的基础算力设施;
自研芯片,刻不容缓;
数据问题
GPT-3 相较于GPT-2,技术上并没有太大改变。最大的区别是更多的数据被应用来训练GPT-3,它是一个更大的模型,大概差了两个数量级。
最初的 GPT-2 大约有 15 亿个参数,而 GPT-3 最大的模型有 1,750 亿个参数(这已经接近人类大脑神经元数量了),它上升了两个数量级,这造成的结果是:
GPT-2已经具备了3.0的特性,但他多数时间非常愚蠢,比如2.0每20次会给你个不错的回答,而3.0每三次就会让你觉得满意。
这里有个比较大的问题,当前用来基本聊天还行,但一旦涉及垂直领域,表现就不好了,这个该怎么办呢?
这么大的模型,每一家机构都要自己训练一个吗?不需要,成本太高,也没有必要。但是每一个机构都有自己的专业术语,或者独特表达,比如说法律、金融、医疗等等,原始数据中根本不存在或者数量很少。某一个领域的内容,机器看的少,学的就不好。从头开始训练成本太高,而不训练效果又不好,怎么办?
这就是微调技术解决的问题,它可以把别人训练好的超大模型拿来(这样的模型又被称为基础模型,或者大规模预训练模型),用自己的数据对参数做持续的优化,结果就是,既有通顺连贯的表达,又有领域知识,一举两得。
这也变成了今天文字生成领域的常见方案,通过别人训练好的千亿模型,配合自己的领域数据做微调,最终实现在自己专业领域内的最佳效果。
派系/数据
关于数据这块还有个之前的派系问题,之前AI“科技树”分为两个派系:数据派(有更多的数据来训练更大的模型)和知识派(加入人的知识,通过知识来建立规则,向专家系统发展)。
随着 的发展,即 2016 年开始,数据派占优,大量数据会支撑模型优化,在计算机视觉上有突破性进展——所以,在没有数据的场景下给你说AI,他大概是骗子!
所以,很多行业,使用基础数据大力出奇迹的想法,也会收到一定鼓动:
如果有好的模型当然最优;
如果没好的模型,大数据量暴力解锁,也是不错;
所以,要上车的话,可以从算法、算力、数据三方面做思考。
结语
一般情况下,大脑约有 800-1000 亿个神经元(GPT-3 的数量级)和大约 105 万亿个突触。GPT-4 将拥有与大脑的突触一样多的参数,虽然还有很多卡点,但这很惊人...
学习的过程中,对此是越来越有兴趣,但真的不知道会变成什么样子...
参考资料:
为什么出现在了美国?因为CEO是一个「神人」?
的生态护城河
生物界“”首次实现从零合成全新蛋白,登子刊
谷歌急推高仿学徒巴德!誓要重夺AI老大哥地位
搞钱行不行
百度版要来了?李彦宏曾称新机会还不清晰,到底难在哪
飓风过境 站在暴风眼的才是最大赢家?
Gmail之父:有了,搜索引擎活不过两年了
令失业近在咫尺:浅显易懂地科普
王小宁:爆火,需要思考的问题很多
杀疯了,两个月引爆千亿美金新赛道|钛媒体深度
黑化太可怕!化身硅谷资本家,学大厂CEO裁人不眨眼
施辉:从和AIGC看到的明天
看似无所不能,会不会成为行业“终结者”?
爆火,一年吸金数十亿,一文读懂AIGC赛道风口|钛度图闻
浪潮已至,改变人类的又一奇点?|新京报专栏
万亿美元商业化狂想
爆火,LeCun称大语言模型是邪路,Meta模型3天惨遭下线
「机构调研」5G富媒体消息业务的头部企业,公司在机器人方面,与国外火热的相对仅仅是技术实现方案差异
的神奇使用方式
来了,但不必惊慌!大厂程序员这样说
百度即将上线聊天机器人“文心一言”,3月完成内测
让写一篇《美联储何时停止加息》的评论文章
60天月活破亿,将颠覆移动互联网?
谷歌公布竞争对手Bard:未来几周将提供更广泛服务
会抢谁的饭碗?联合国也发文了
引领创成式 AI 新变革
百度终于等到
首个中文版来了:大模型的中国元“Yuan”
有朝一日会取代人脑?究竟什么是,它有哪些功能?
将杀死我们?
还有什么不会?招行信用卡用它写出金融业首篇AIGC
来了,开始在金融圈抢活
创始人拿微软100亿,是在下一步大棋
谷歌急投20亿押注「最强竞品」,GPT-3核心成员出走打造,多方出击抗衡微软
原班人马成立的公司,被谷歌紧急投了4亿美元
试用有感:一个新时代正拉开序幕
大厂卷起! 发布 竞品 Bard,微软:我明天有场神秘活动要开!
《时代》专访:“我还有很多局限,但人类应准备好应对AI。”
潜在的商业模式
是什么?3分钟搞懂风靡全球的聊天AI
一文带你了解爆火的Chat GPT
你必须知道的2023年的四个趋势
发展历程、原理、技术架构详解和产业未来
深入浅出,解析背后的工作原理
从概念试错到落地应用 人工智能时代真的要来了
成为下一个风口,火出 AI 圈
万字长文:商业化落地全解析
背后的核心技术
原理解析-张俊林
史上最强人工智能诞生! 到底有多强?
除去聊天, 有什么潜在的商业模式?
浅析的原理及应用
深度学习崛起十年:“开挂”的革新者
爆火!谁最慌?
调用 api实现智能问答程序代码详解
中国公司快速跟进,不值得
中信证券:在中短期内无法完全取代传统搜索引擎,但料将会加速搜索引擎演化进程
独家专访|谷歌推出Bard,比尔·盖茨再谈
打开|爆红出圈并非技术突破?专家:更多因为选对了应用落脚点
爆火,一年吸金数十亿,一文读懂AIGC赛道风口|钛度图闻
,这台学习的永动机,何时“耗尽”人类的语言
能取代金融理财师吗?
有关的一些非专业认知
飞桨超越,中国开源框架市场格局迎来变化
最新!2022全球医疗器械企业TOP10,挑战者逆袭
替代谷歌搜索?不,是降维打击|AIGC特辑之三
国内外巨头争先布局,CPO或将成为下一个概念?
跻身全球TOP50网站,1月访问量突破6.72亿
谷歌 CEO:Bard 将给用户最新鲜、高质量的回应
GPT-3的下一个应用:语音诊断阿尔茨海默病
图灵奖得主抨击没有突破!科研人员为什么老犯错?
生态圈: 大未来的关键点
一图看懂丨聊天机器人火出圈!AIGC赛道风口乍现?
发展历程、原理、技术架构详解和产业未来
谷歌推出对话式AI服务Bard,未来几周将开放给大众
AI医生来啦,在医疗领域的未来可期
能看病、通过医学考试,人工智能取代医生还有多远?
打开|爆红出圈并非技术突破?专家:更多因为选对了应用落脚点
微软通过 为医疗保健行业注入新活力
病理AI产品首获FDA批准,创始人被称为“计算病理学之父”
微软通过 为医疗保健行业注入新活力
: 业内首个功能型对话开源中文大模型, 人人都可访问和部署!
阿里版已进入测试!中文聊天截图曝光,达摩院出品
后时代:互联网人均失业?
持续创造历史记录:AIGC,人工智能的旷世之作
走红背后:苦熬五年,三次AI路线迭代|行业观察
会怎么样改变世界和中国?
前瞻研究全球人工智能AI行业系列报告3:Chat~GPT对搜索引擎行业意味着什么-(16页).pdf
人工智能行业专题研究:开启AI新纪元
中美“狂飙”,一文读懂超20家科技巨头最新布局|钛媒体焦点
全球人工智能AI行业系列报告2:从Chat~GPT看生成式人工智能AIGC产业机遇与落地场景-(19页).pdf
人工智能行业从CHAT~GPT到生成式AI( AI):人工智能新范式重新定义生产力-(100页).pdf
好文:
体验在下方↓↓↓↓