K8凯发·国际,k8凯发天生赢家一触即发人生,k8凯发官网首页奶茶官网

K8凯发·国际,k8凯发天生赢家一触即发人生,k8凯发官网首页奶茶官网

  • K8凯发·国际
  • 逼近Claude 35、成本降低86%开源代码定位新神器LocAgent来了

    发布时间2025-06-03 11:19:40 来源:小编 阅读次数:

      

    逼近Claude 35、成本降低86%开源代码定位新神器LocAgent来了

      05月24日◆★◆★◆,前五个月南昌空港口岸国际货邮吞吐量增长逾五成◆◆■★,澳门威斯尼真人手机版下载■★◆,十大足球平台,开心游戏网★★★◆,betvlctor伟德官方

      构建好代码图后,LocAgent 提供了统一的工具接口,让 LLM Agent 能够方便地查询图结构和代码内容。主要包括以下三个 API:

      SearchEntity■■★:该工具基于层次化实体索引,使用关键词搜索代码库中相关实体◆★■◆★◆。当在上层索引中未能找到匹配项时,系统会自动使用下一层索引进行搜索,从精确匹配到模糊搜索,以查找最接近的匹配项。对于检索到的每个实体,SearchEntity 会返回该代码片段的摘要(如图 4,有折叠级别、预览级别和完整代码三级★★,可根据需要展开)。

      周冠宇获全场最佳车手★◆◆,问界发布山西M7事故说明【光明时评】高校博物馆向社会开放值得点赞可以面对面玩的斗地主下载注册就送10元best365足球网站亿博体育网站是什么

      换言之,代码定位指的是在大型代码库中精确找到需要修改的代码位置◆★,在软件开发与维护中,准确地定位代码问题是提高开发效率的关键(图 1 展示了四种常见的代码修复场景)。

      自然语言中的问题描述(如错误报告)往往与真正的故障根因存在显著的语义差异与结构距离(如图 2 所示)。这不仅要求模型能够深入理解自然语言编写的错误报告◆■■◆★◆,还需具备在庞大代码库中跨越层级结构和复杂依赖关系进行推理和追踪的能力。

      具体来看,使用 Claude-3★◆★◆■.5 等商用 API 模型时,每个 Issue 的平均处理成本约为$0.66;而使用本地部署的 Qwen2.5-32B 模型,成本降至约$0.09,降低了86%◆◆★★。若进一步采用 7B 的小模型,处理成本可低至$0★■■.05,仍能保持优于大多数方法的性能。从函数级准确率与成本的比值来看★■◆◆◆,微调后的Qwen-2.5-7B 是性价比最高的方案,其效率优于所有商用模型;Qwen-2.5-32B 次之★◆◆,也显著优于 Claude-3.5。这表明■★★★★■,结合 LocAgent 框架,开源模型不仅具备性能竞争力,更具部署经济性。

      LocAgent 在真实数据集上的表现和分析结果令人瞩目★◆。研究中使用了既有的基准数据集(SWE-Bench Lite)以及团队新构建的 Loc-Bench★◆,对比了多种基线方法的代码定位效果◆◆。

      为了深入了解 LocAgent 的能力★★★◆,该团队还按照任务的难度对性能进行了分析。该团队将「难度」用代码图上函数距离(hop 数)来衡量◆★★■■◆:即 Issue 描述中提及的函数与实际需要修改的函数之间的最短路径。直观地说◆◆■★◆,hop=0 表示 Issue 直接提到了需要改的函数名◆★■◆■★;hop=1 表示目标函数是 Issue 中提到的函数之间有直接关系,hop 数越大则定位难度越高。

      LocAgent 的成功揭示了一个重要趋势:从「暴力计算」到「智能决策」的范式转变。传统方法要么把整个代码库直接丢给 LLM 进行暴力匹配,要么让 Agent 按照预设规则盲目遍历目录◆■■★★◆,这些都属于「计算密集型」的解决方案★■◆■◆。而 LocAgent 通过图索引等结构化中间表示,将复杂问题进行结构化分解■■◆■■,然后让 LLM 承担更高层次的推理和决策任务。

      实验发现:随着 hop 数增加◆■,所有方法的定位准确率都在下降。毕竟关联越不直观,模型需要推理的链路就越长。不过◆★★■,不同方法的鲁棒性差异明显■◆★◆:Agent 类方法在高难度下的性能下降幅度明显小于检索类方法。特别是 LocAgent 借助图结构索引,在 hop 数增加时仍能保持相对较高的准确率,表现出较好的鲁棒性。

      RetrieveEntity◆◆■★◆★:当 Agent 确定了某个代码实体很可能就是目标时,可以用此工具提取该实体的完整信息◆◆★■■■。当输入实体 ID,RetrieveEntity 输出该实体的文件路径、起止行号、完整代码内容等详细属性。TraverseGraph★■■:该工具在代码图上执行类型感知的广度优先搜索。Agent 可以指定起始的实体 ID,以及希望遍历的方向■★■★、步数(hops)、实体类型和关系类型等参数。工具会在图中从起点出发按照要求走指定步数,返回遍历到的子图结构■★。通过设置不同的类型过滤,Agent 可以灵活地探索比如「沿调用关系向下追踪两步」或「查看从某类出发的继承层次」等等★◆。值得一提的是,TraverseGraph 将返回的子图格式化成一种树状结构文本(见图 5),以便 LLM 更容易理解关系拓扑。

      相比之下◆◆◆★,传统检索方法在需要两跳以上时几乎失效,在函数级定位上即使目标函数名字就出现在查询里■★,有时都找不到(因为它们往往把查询当做整体,无法拆解处理细节)。

      05月24日2024★★◆◆★“港澳台侨企业服务年★★■■★★”人力资源赋能活动在扬州举行在哪里玩十大娱乐老平台官网b体育官网登录注册送38元游戏

      SWE-Bench Lite 是从 GitHub issue 中构建的仓库级代码修复数据集★◆■,也常用于代码定位评估★★◆■,包含 300 个问题及其对应的修复代码,其中大部分为 bug 报告。基于该基准,LocAgent 实现了目前最优的代码定位准确率,显著优于现有方法。

      这种结合结构化索引与 LLM 智能体协同设计的范式,很可能成为未来 AI 工程应用的标准模式。不再是让 LLM 做更多计算,而是让 LLM 做更智能的决策 - 程序员的 debugging 体验又要迎来一次重大升级了!

      05月24日法国学者:欧洲应向中国学习儒家思想 展开真正的文明对线米乐官方皇家AAA米乐M6登陆博天堂线路检测……

      借助结构化图索引与工具调用,LocAgent 仅需 6~9 轮交互即可完成一次代码定位任务◆★◆■■◆,推理过程高效。此外■◆★★,该团队利用开源模型取得了媲美商用大模型的结果★■★,同时大幅降低推理成本,具备实际落地部署的可行性。

      图 1■■★◆:给定一个代码库(左)和问题描述(中■■◆,包含四种场景的示例),代码定位需要识别出需要修改的相关代码位置(右),包括具体的文件、类和函数◆★■。LocAgent 旨在让 LLM Agent 自动完成这一过程。

      05月24日第二届海峡两岸(福州)人工智能-工业机器人竞赛举行每个平台的AG是一样的斗地主哪个版本最正宗奥博官网appaoa体育平台官网

      这种「agentic retrieval」范式的核心在于决策智能化。通过图、树等结构化中间表示,信息变得更易于推理,Agent 能够根据具体问题动态调整搜索策略,而非死板地遵循预设路径。这代表了从「人工设计各种 RAG pipeline」向「让 AI 自主决策如何检索」的转变。

      05月24日血液科专家:CAR-T 疗法为急淋白血病患者带来新希望365bet欢迎您访问OD体育亚洲官方bbin在哪下载九五至尊赌场网站

      问题理解与关键词提取:Agent 首先对输入的 issue 描述进行分析◆■■★■,划分出不同方面的信息◆◆★■,然后提取出与问题相关的关键词。这些关键词相当于为后续搜索指明了初步方向。链接关键词到代码实体:针对每个提取的关键词■■★★,Agent 调用 SearchEntity 工具在代码索引中查找匹配的代码实体。多跳推理,生成故障链路■◆◆★★:接下来,Agent 会尝试串联线索,从报错表征推导故障原因。它先确定问题触发的初始入口点(例如触发错误的 API 或函数),然后以这些点为起点,在代码图上进行迭代探索:调用 TraverseGraph 沿调用关系或依赖关系向相关方向搜索★★■■;用 RetrieveEntity 查看某些关键节点的实现细节;必要时再次 SearchEntity 引入新的关键词◆◆★★。通过多轮交替使用这些工具◆★,Agent 逐步构建起一条从问题症状到潜在根因的逻辑路径。锁定目标代码:在形成对问题的全面理解后,Agent 根据「故障链路」中暴露的可疑环节,定位出所有可能需要修改的目标代码实体(可能是若干个函数或类)★★★◆◆。随后,Agent 对这些候选实体按相关性进行排序输出,并给出它们的文件路径以及简要的原因说明。

      研究团队验证了一个关键点:更准确的代码定位直接提升问题解决率■■■。在 GitHub 问题自动修复任务中,使用 LocAgent 的 Pass@10 成功率比基线%。这意味着这项技术不仅仅是个「定位工具」,而是能实实在在提升整个软件维护流程效率的利器。

      相比传统的向量检索方法有显著提升:BM25 在文件级 Acc@5 上仅为 61◆★◆■.7%■◆★■◆,而先进的代码嵌入模型如 CodeRankEmbed 也仅达到 84.7%;而 LocAgent 准确率高达 92.7%,在函数级定位中也同样显著优于这些方法。多步推理的 Agent 类方法整体上胜过基于固定流程的方法■★。基于固定流程的方法(如 Agentless)往往只能依据字面匹配找到有限的候选★◆★■★■,而引入了 Agent 逐步探索后,能够考虑更广的范围,定位效果更好■★。在文件◆★、模块、函数三个粒度上,LocAgent 全面超越了基于 GPT-4o 或 Claude-3.5 的现有 Agent 系统。使用 Claude-3.5 时,LocAgent 在 SWE-Bench Lite 文件级 Acc@5 达到 94%■◆,在函数级定位上同样优于其他方法■★◆。LocAgent 搭配 Qwen2.5-32B (微调) 模型的性能几乎与 Claude-3■◆.5 持平★◆■■◆:在 SWE-Bench Lite 文件级 Top-5 准确率上◆■,前者为 92★■.7%◆■◆★■,后者约 94.2%■◆■◆,差距很小。而如果使用 Qwen2★■★■.5-7B (微调) 小模型,虽然准确率略有下降(约 88.3%,但仍超过绝大多数 baseline),其表现已能够逼近 GPT-4o 的效果。

      该研究团队的解决方案相当巧妙:首先他们把整个代码库解析成一张图,包含文件、类◆◆■★★、函数之间的包含、调用、继承、导入关系。然后该团队为 LLM Agent 提供简洁统一的图原语接口,以支持离效探索代码库■★。该方法通过将代码库解析为异构图表示,让大语言模型能够像使用地图一样高效地在代码中「移动」,实现多跳推理◆■★■◆,逐步接近目标代码★★■■。

      05月24日,山东文旅◆■■■★◆“上新■★★★”又“上心” ◆★■★◆“花式”宠客解锁流量密码,线上皇冠手机版,GD奢华厅官方网站,大发888赌场网站,必发登录官网

      问题的核心在于:自然语言描述的问题和真正需要修复的代码位置之间,往往隔着好几层调用关系。比如用户反馈「XSS 漏洞」,但实际需要修改的可能是某个深层的验证工具函数■■◆★。

      我可以参加你们婚礼吗■★,飞猪超级VIP日本包船看花火大会进博会在马来西亚举办推介会yabo在线在线登录平台

      相信每个程序员都有过这样的经历◆◆■★◆:看到一个 bug 报告★■★◆,满脸问号地想「这到底要改哪里?」。传统方法要么靠关键词匹配(太粗糙)■■■◆■◆,要么直接把整个代码库丢给 LLMs(太低效),要么让 Agent 盲目遍历目录(太笨拙)■■★。

      由于 SWE-Bench Lite 数据集过于偏重 Bug 类型,团队打造了新的Loc-Bench基准★◆★■■◆,用于全面评估方法在多样化软件维护任务中的定位能力。Loc-Bench 共包含 560 个真实 GitHub issue,覆盖Bug 修复、功能新增、安全漏洞与性能优化四大类◆★■,任务类型更加均衡■■◆,贴近实际工程场景★◆★◆★。

      这种图结构的优势在于:即使两个代码片段分处不同模块,只要存在调用或继承关系,在图上它们就会变得「邻近」★★★■■◆。比如,以往基于目录导航的方法会认为远隔两个子目录的模块毫不相干★■,但如果模块 A 函数调用了模块 B,在 LocAgent 的图中 A 和 B 会通过调用边直接连接★◆★,使它们在该图结构上靠近◆◆。对于代码定位任务★■,这种「邻近」至关重要,因为许多问题不是局限在单个文件夹内部,而是通过调用链跨越多个模块◆■■■。

      05月24日,专访秘鲁驻北京商务处参赞:钱凯港开港事关秘鲁未来发展,英皇体育平台投注,bet007足球即时比分,博狗网页登陆,澳门金年会app下载官网

      05月24日中新真探◆■:冬天洗澡先洗头会引发猝死吗?tvt体育注册网址入口聚星平台登录快手亚新在哪注册足球注册平台

      云南一村地面开裂174位村民避险安置■◆■◆,国博冰箱贴上市3个月卖了近8万个河南周口★★◆:逛千年庙会 赏非遗展演万象城游戏平台网址98娱乐彩票网登录入口凯云体育app官网入口欧洲杯小组

      女子小区内投放蟑螂 警方介入,神耆小子澳门“咏春达人”传承红船木人桩 一招一式尽显乾坤美高梅游戏下载大全九游会在线在线体育平台博狗买球官网

      如图 3 所示■◆◆,LocAgent 首先将代码库解析为一个异构图表示,图中包含多种类型的代码实体及其依赖关系◆◆◆★◆。在此基础上,系统构建了分层稀疏索引,用于支持高效的内容检索与结构化探索。借助这些索引,LocAgent 能够结合图结构与工具接口,执行由 Agent 驱动的逐步搜索过程,精准完成代码定位任务。

      日本的人肉周边有多离谱◆◆,时光代理人四川成都:在地铁站内逛中外艺术雕塑展水果阿姨内幕888真人入口登录线up与pokerstar关系

      又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁■◆、南加大和斯坦福的研究团队刚刚发布了LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架■★,直接把代码定位准确率拉到了 92.7% 的新高度★■■。该研究已被 ACL 2025 录用■◆★■。

      05月24日,商务部:希望世贸组织成员不要把贸易救济措施当成贸易保护工具探访高原药学实验室:◆★■★★“最强大脑”如何运作■■★◆◆★?■★■,澳门现在有梭哈吗★◆◆■★,鸭脖体育网址★■,十大手机版赌场■★★■,美高梅美狮澳门网站

      代码图表示构建◆◆■★■★:为统一表示代码库中的结构与语义信息★◆◆,LocAgent 基于抽象语法树(AST) 对代码库进行解析★★◆★◆,构建一个异构有向图 作为结构化索引■■,详细表示了代码目录、文件、类、函数之间的包含、调用、导入和继承关系,使得隐式依赖显性化,便于 LLM 高效推理。

      该团队进一步从不同角度展开分析,探讨其在复杂任务中的稳定性、成本效率★◆、关键组件作用以及对下游应用的实际价值。

      LocAgent 在提示设计上采用了「逐步思考」(Chain-of-Thought, CoT) 的策略,引导 LLM Agent 将代码定位任务分解为一系列步骤,模拟人类调试思路一步步逼近目标。整个问题求解过程可以概括为以下阶段:

      为评估代码定位在实际软件维护任务中的影响,该团队进一步分析了 LocAgent 在自动解决 GitHub 问题中的效果★■★■◆。结果表明,随着定位准确率的提升,问题解决成功率显著提高■★,说明更精准的定位结果能够显著增强自动化代码修改的质量与稳定性。该发现验证了 LocAgent 不仅在定位本身表现优秀,也能有效推动下游任务的整体性能,具备实际工程价值■★★。

      图 2: 图中红色节点表示问题描述中明确提及的函数◆◆◆,黄色节点表示实际需要修改(修补)的函数。任务难度定义为代码图中从提及函数到目标修补函数之间的最短路径长度(最少跳数),图示例中任务难度为 2 跳★◆■◆。

      05月24日,2024中国(江西)工业互联网创新发展大会举行◆★◆■◆,bwin备用网址◆■■,凯时app官网,pg电子赏金船长视频,365bet体育在线日,就业形势总体保持稳定——中国经济首季报亮点之四■■◆■★,皇家电玩捕鱼街机版手机下载,大发线手机app,宝马线日天舟七号货物上新!航天员的龙年盲盒即将配送新宝最新地址宝马会在哪玩鸿博平台登录网址永利在线日内蒙古草原备足饲草料 助牲畜安度“春乏关■★★★”edf138官网下载鼎博下载哪里赌足球赛w66最老牌

      整个 LocAgent 的使用对用户来说非常简洁:只需输入自然语言的问题描述, LLM Agent 就会如上所述自主地完成一系列搜索、遍历◆◆、读取操作★◆,最后给出代码定位结果★■★■。

      05月24日,南凭高铁崇凭段进入全面铺轨阶段★★★,pp电子游戏在线注册,和记娱乐手机版登陆,体育注册平台有哪些◆◆◆■★■,18新利登录不了

      这个研究最让人兴奋的地方在于:开源模型经过微调后,也能达到商用大模型的效果。他们提供了两个版本,1. Qwen2.5-7B 微调版:性能媲美 GPT-4o,单次处理成本仅 $0.05★■■◆◆◆;2.Qwen2◆◆◆★★.5-32B 微调版◆■★★■:逼近 Claude-3■■■★.5 水平,成本节省 86%。这对于需要大规模部署的企业来说,这简直是降本增效的神器。