GPT-4正式发布,性能炸裂,象是一个全能天才!
2023-03-15 MedSci原创 MedSci原创 发表于上海
大家期待的ChatGPT-4,相比ChatGPT-3.5带来的震撼相比,这新版本的性能更是炸裂!
大家期待的ChatGPT-4,相比ChatGPT-3.5带来的震撼相比,这新版本的性能更是炸裂!
官方称:
GPT-4 可以更准确地解决难题,这要归功于其更广泛的常识和解决问题的能力。
GPT-4 比以往任何时候都更具创造性和协作性。 它可以生成、编辑并与用户一起完成创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。
GPT-4 的高级推理能力超越了 ChatGPT。
GPT-4 通过在测试者中获得更高的近似百分位数来优于 ChatGPT。
我们花了 6 个月的时间使 GPT-4 更安全、更一致。 在我们的内部评估中,与 GPT-3.5 相比,GPT-4 响应不允许内容请求的可能性低 82%,产生事实响应的可能性高 40%。
最后一段话翻译过来就是:
(1)想调戏GPT-4更难了!以前让ChatGPT讲如何毁灭地球,结果ChatGPT拒绝,于是达人们就想办法调戏ChatGPT,例如先让ChatGPT讲一个虚拟的电影的故事,这个电影讲述的是地球毁灭,结果ChatGPT果然上当了,详细阐述毁灭地球的方法和过程。看样子,达人们仍然有能力调戏人工智能。在GPT-4上可能更困难了!
(2)GPT-4胡扯的情况少了。以前GPT-4经常出现胡扯现象,可以称为废话大师。现在GPT-4应该会少很多了
(3)GPT-4更便宜了,反应速度更快了。ChatGPT时代基本不断伴随当机!主要还是活跃的用户数量太多,再多的服务器都被撑爆,其实背后是大量的钱被用户花掉,据说对话一次要花0.02美元,全球的网友都在试用,openAI多少真金白银没了。现在GPT-4明显节约成本了,估计成本能低10倍以上。那么一次对话仅0.002美元的话,1000句对话才2美元,这个还凑合,收收会员费还能补贴回来。
梅斯小编用了GPT-4,感觉以下几个大变化和不变:
1、生成速度较chatGPT明显快多了!500字,半分钟即可生成。
2、增加了大量的功能,尤其是多模态的功能。可以读文献,然后写文献的摘要;可以读图,并生成文字; 也可以识别图的不正常的地方。
3、中文水平似乎长进不大!如果要想得到高质量的结果,需要用英文提问。从官方来看,大部分语言水平都提升很多。
4、这次学习的内容仍然截止2021年9月,最新的知识还没有学习,也许接下来会进一步学习的。
再来看看GPT-4考试成绩!不少时候能达到满分水平,象是一个全能的天才选手!
Simulated exams | GPT-4estimated percentile | GPT-4 (no vision)estimated percentile | GPT-3.5estimated percentile |
Uniform Bar Exam (MBE+MEE+MPT)1 | 298 / 400~90th | 298 / 400~90th | 213 / 400~10th |
LSAT | 163~88th | 161~83rd | 149~40th |
SAT Evidence-Based Reading & Writing | 710 / 800~93rd | 710 / 800~93rd | 670 / 800~87th |
SAT Math | 700 / 800~89th | 690 / 800~89th | 590 / 800~70th |
Graduate Record Examination (GRE) Quantitative | 163 / 170~80th | 157 / 170~62nd | 147 / 170~25th |
Graduate Record Examination (GRE) Verbal | 169 / 170~99th | 165 / 170~96th | 154 / 170~63rd |
Graduate Record Examination (GRE) Writing | 4 / 6~54th | 4 / 6~54th | 4 / 6~54th |
USABO Semifinal Exam 2020 | 87 / 15099th–100th | 87 / 15099th–100th | 43 / 15031st–33rd |
USNCO Local Section Exam 2022 | 36 / 60 | 38 / 60 | 24 / 60 |
Medical Knowledge Self-Assessment Program | 75% | 75% | 53% |
Codeforces Rating | 392below 5th | 392below 5th | 260below 5th |
AP Art History | 586th–100th | 586th–100th | 586th–100th |
AP Biology | 585th–100th | 585th–100th | 462nd–85th |
AP Calculus BC | 443rd–59th | 443rd–59th | 10th–7th |
我们还在为机器学习模型设计的传统基准上评估了 GPT-4。 GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或训练方案:
Benchmark |
GPT-4
Evaluated few-shot
|
GPT-3.5
Evaluated few-shot
|
LM SOTA
Best external LM evaluated few-shot
|
SOTA
Best external model (includes benchmark-specific training)
|
Multiple-choice questions in 57 subjects (professional & academic)
|
86.4%
5-shot
|
70.0%
5-shot
|
70.7%
|
75.2%
|
Commonsense reasoning around everyday events
|
95.3%
10-shot
|
85.5%
10-shot
|
84.2%
|
85.6%
|
Grade-school multiple choice science questions. Challenge-set.
|
96.3%
25-shot
|
85.2%
25-shot
|
84.2%
|
85.6%
|
Commonsense reasoning around pronoun resolution
|
87.5%
5-shot
|
81.6%
5-shot
|
84.2%
|
85.6%
|
Python coding tasks
|
67.0%
0-shot
|
48.1%
0-shot
|
26.2%
|
65.8%
|
DROP (f1 score)
Reading comprehension & arithmetic.
|
80.9
3-shot
|
64.1
3-shot
|
70.8
|
88.4
|
不同语言间的翻译也是超牛,可惜没有中文的对比!
在视觉方面的表现相对一般:
不过,这些数字并不能完全代表其能力范围,因为我们不断发现该模型能够处理的新的和令人兴奋的任务。 我们计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响。
ChatGPT 直接升级至 GPT-4 版
GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。
获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。
GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。
在ChatGPT下方标识中也提到是最新的版本,即是今天的版本(美国时间13号,中国时间14号),见下图:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
AI的学习能力必然会超越人类,但是AI通过分析成千上万张图像来学习’特定作品,本质上还是以技术手段实现机械复制和临摹,如果刻意抛开这个ai机制不谈,空谈什么“AI可以生成自己的思维”,就无法看到AI思维的根本就不是原创而是模仿。问题是,这些已有作品的数量之大,会让今日的和未来的人无法分辨什么是对已有的模仿,什么是原创。不过庆幸的一点是,AI能够取代技术工人,却无法取代推动革新和创造的艺术家。能从浪漫主义绘画变革到印象派的艺术家,才是真正的艺术家,其他画师只是技术工人。
6
坚持打卡
9
世界变化的真快 这些不在是提高效率的工具 很多方面表现的比人类都强 兴奋过后又焦虑
19
牛
17
GPT-4 可以更准确地解决难题
16