k8·凯发(中国)天生赢家·一触即发

不只是“小升级”！DeepSeek-R1新版获海外盛赞每经记者亲测挑战三大编程任务

发布时间2025-06-03 11:20:20 来源：小编阅读次数：次

不只是“小升级”！DeepSeek-R1新版获海外盛赞每经记者亲测挑战三大编程任务

　　接下来◆★★■■◆，难度升级。对于大模型而言，对物理世界进行准确模拟长期以来都是一项极具挑战性的任务。

　　DeepSeek最新发布的R1模型升级版在全球AI领域掀起热议，多位国际主流科技大佬及行业高管纷纷发声，盛赞其技术突破。

　　为了更全面地测试DeepSeek-R1-0528的编程能力，每经记者设计了三项不同难度和类型的编程任务◆◆★◆◆，包括网页游戏制作★◆★、物理世界模拟、财报可视化，来检验其在实际场景中的表现■◆◆★。

　　同时，页面■★◆★■★“行星信息★■■◆◆”板块还以简洁明了的文字介绍了太阳及各大行星的关键特征，如太阳的质量、直径■★■◆★◆，水星的公转周期、表面温度等■■◆◆◆，兼具科普性与趣味性。

　　DeepSeek延续了其一贯的低调风格，此次升级率先在微信群进行官宣，并轻描淡写地将其定义为★◆◆■“小版本升级”。

　　在游戏逻辑方面，方块的下落、移动和旋转都很流畅，没有出现延迟或卡顿现象。

　　此次，记者特意选取■◆◆“行星轨道运动的物理模拟◆■■”这一任务，在考察其编码能力的同时，也考察DeepSeek-R1-0528对物理世界的理解能力。

　　在此次更新中■◆★■，模型代码能力的提升最为显著。知名代码测试平台LiveCodeBench显示■★★◆■★，更新后的R1性能可以媲美OpenAI o3模型的高版本■◆★■★★。

　　AI撰稿人乔治·霍普金（George Hopkin）表示★■，DeepSeek的R1模型更新后◆■★★◆★，推理和输出能力大幅提升，标志着中国在全球AI竞赛中的影响力日益增强。

　　尽管可能还存在一些细微的提升空间◆◆■■。比如，在涨跌幅的颜色上■◆◆，我们通常用红色表示上涨★◆◆★★★，绿色表示下跌。但可能由于记者投喂的是美股公司财报（美股一般用绿色表示上涨，红色表示下跌），R1用了与之对应的颜色来展示涨跌幅■◆■◆。

　　从游戏页面来看，色彩搭配鲜明且协调，不同颜色的方块在深色背景下十分醒目，游戏区域布局合理■◆◆■■，操作说明也清晰明了。

　　《每日经济新闻》记者（以下简称■★◆★“每经记者”）通过俄罗斯方块游戏开发◆◆■★◆★、太阳系模拟与交互展示，以及设计英伟达最新财报网页这三项任务对R1新版本进行了实测★★◆★◆◆，发现DeepSeek-R1-0528的编程能力确实强大，对物理世界的理解以及文本的提取都相当准确。

　　知名AI评论人Haider直呼，这是开源的一大胜利。“DeepSeek王者归来了◆■■■★。新版本的DeepSeek-R1在编程方面简直令人难以置信，这是我测试过的最佳模型。”

　　最后，每经记者上传了英伟达2026财年第一财季财报的文档，要求R1根据财报中的内容◆◆■◆★■，制作一个可交互的网页。

　　目前，ChatBot Arena也已经“上架”了最新版本的DeepSeek-R1，但还没有任何的测试结果■★★。

　　随后，记者调整提示词◆◆◆★，仅提了最基础的要求，■◆◆◆“请帮我写个俄罗斯方块游戏（网页端）★■■■★，直接可以上手玩■◆。★◆◆★◆”

　　简洁的指令似乎对DeepSeek-R1-0528更加奏效◆◆。这次R1思考9秒■■，用时约3分30秒便生成了代码★★■■。

　　作为一款经典的休闲游戏，俄罗斯方块游戏的开发涉及图形绘制、游戏逻辑处理◆◆★■★、用户交互等多个方面，能够很好地考察模型对于综合编程知识的掌握和运用能力。

　　不只是“小升级★◆★★”！DeepSeek-R1新版获海外盛赞，每经记者亲测挑战三大编程任务

　　5月29日凌晨，DeepSeek-R1-0528正式在Hugging Face平台开源。此前一日（5月28日），DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级，用户可通过官方网页、App★★■■■◆、小程序进行测试（打开深度思考），API接口和使用方式保持不变。

　　DeepSeek此次更新的亮眼表现，为DeepSeek的下一代模型R2注入更多想象空间。Max Zhang表示◆◆◆★，在这一“小◆■■”进步之后◆★★，我们确实可以期待更大突破的到来。

　　数据方面■★★■，基本做到了准确无误，很少出现“幻觉★■◆◆”情况。此外，模型还绘制了柱状图★★■★、饼图等图表，让复杂的数据变得一目了然。

　　DeepSeek仅思考了7秒，就开始输出代码◆◆◆★★■。然而，初步生成的游戏无法正常运作，虽有预设的分数与关卡显示，但游戏区域内并没有俄罗斯方块。

　　瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang指出，DeepSeek的最新版R1模型◆■★◆■◆，正悄然成为谷歌Gemini 2.5 Pro的强劲竞争对手。★■◆◆“这一发展不仅仅是技术进步，更是全球AI竞赛中的一个关键节点。该模型凭借其双倍输出能力和增强的数学推理能力■■◆★■，展示了中国在AI领域的快速崛起★★。■■◆◆◆★”

　　机器学习研究者kalomaze实测后赞叹道，“DeepSeek太出色了■■■◆。”

　　从界面呈现看，太阳居于中心，八大行星依照各自轨道有序排布■◆■■，色彩搭配也符合人们对天体的认知★★◆。此外，行星的大小比例、相对位置都比较精准。

　　据测试者反馈◆■■★，DeepSeek-R1-0528能够一次性生成超千行无Bug代码，且在HTML/CSS/JS动态交互实现（如天气卡片动画■■★、数据可视化）中更加精准。

　　DeepSeek-R1生成的网页令人眼前一亮。在视觉呈现上，网页采用了标志性的“英伟达绿”，颜色搭配协调◆★★◆■◆。

　　每经记者首先向DeepSeek-R1提出需求：“请帮我开发一个网页端俄罗斯方块小游戏，要求包含游戏分数、彩色方块及多个关卡。”

　　除代码能力外，R1新版本模型的文本理解与推理能力亦实现跨越式升级◆■◆。其上下文长度拓展至128k★★，长文本提取的准确率也有显著提升◆■。

　　除代码能力外，新版本模型的文本理解与推理能力亦实现跨越式升级★◆◆■。其上下文长度拓展至128k，长文本提取的准确率也有显著提升。

　　然而，众多开发者实测后发现◆■◆◆，此次的“小”升级，并不小■★◆■■。升级后的DeepSeek-R1，模型能力可以说实现了跨越式提升。