一句话操作电脑!Computer use和实在Agent

来源:咸宁新闻网
2024-10-23 17:28:17
分享

就在刚刚,OpenAI 头号竞争对手 Anthropic 推出了 “computer use” 功能,让 Claude  能够像人类一样操作电脑了!看屏幕、动光标、点按钮、打字等。通过 API,开发者可以让 Claude  将指令翻译成计算机指令,从而解放一些枯燥的重复性流程任务。

一、西方的Anthropic 的 Computer use:

开发人员可以通过 Anthropic 的 API、 Amazon Bedrock 和 Google Cloud 的 Vertex AI  平台试用Computer Use 。

功能特性解析:

Claude 模型通过 API  实现了令人惊叹的像人一样操作电脑的能力。它能够观看屏幕截图,精准地移动光标,在需要的位置点击按钮,还能使用虚拟键盘输入文本。这种操作方式真正模拟了人类与计算机交互的方式,让  AI 助手不再局限于专门定制的工具,而是可以直接使用为人类设计的各类软件。

例如,在多个演示视频中,Claude  可以丝滑地执行打开软件、网页搜索、文本输入、编写代码、下载文件、debug、查找网页表格并填入信息等任务。

实验阶段表现:

目前,Anthropic 的 Computer use 功能处于实验阶段,确实存在一些不足之处。操作速度较慢,一些简单的操作如滚动、拖拽和缩放等,对  Claude 来说仍具有相当的挑战性。

在基准测试中,Claude 在 OSWorld 电脑操作评估测试中获得了 14.9% 的成绩,远超其他 AI 模型的 7.8% 最高分,但与人类的  70 - 75% 的水平相比仍有相当大的差距。当用户提供更多完成任务所需的步骤时,Claude 的得分可以提升到 22.0%。

在软件工程方面,新版 Claude 3.5 Sonnet 在 SWE-bench Verified 评测中的得分从 33.4% 大幅跃升至  49.0%,一举超越了包括 OpenAI o1-preview 在内的所有公开可用模型。在零售领域的 TAU-bench 测试中,其表现从 62.6% 提升到  69.2%,在难度更高的航空领域测试中也从 36.0% 提升至 46.0%。

开发者反馈与未来展望:

官方提前发布这项功能,是为了获取开发者的反馈。随着开发者的积极参与,预计这一功能将随着时间逐渐改进。未来,Computer use  功能有望变得更快、更可靠、更容易使用。Anthropic 可能会进一步优化 Claude 的操作速度,减少错误的发生。

同时,可能会通过更多的训练和优化,让 Claude  在处理复杂任务时更加得心应手,逐渐接近人类的操作水平。例如,在处理一些需要快速响应的任务时,Claude  可能会更加高效地移动光标、点击按钮和输入文本。此外,随着技术的不断进步,可能会有更多的软件和工具被 Claude  熟练掌握,为用户提供更加丰富和便捷的服务。

二、东方的“实在Agent”:不仅能像人一样操作电脑,还能操作手机!

在人们对国外科技的迅猛发展赞叹不已之际,其实早在去年,即 2023 年 8 月,国人团队 “实在智能” ,就已率先推出国内外首个 “实在 Agent”  智能体。

它不仅能像人一样操作电脑,还能操作手机!

该智能体借助垂直大语言模型 TARS,调用 RPA 和 ISSUT 来完成点击、输入、下载等任务。它无需  API,能够为企业员工配备全能业务专家,实现超自动化执行以及自然对话式交互,堪称智能办公的 “AI 个人助理”。用户可以通过实在智能官网下载 AI 产品“实在  Agent 智能体”。

在一个办公场景中,如果你想将销售人员的业绩排序,并把结果通过钉钉发送给张总,过去需要找到桌面上的表格,打开进行排序,再保存关闭后发给张总。现在打开实在  Agent 智能体,输入“读取桌面上的销售业绩清单,按照销售人员统计销售金额并从高到低排序,将结果文件通过钉钉发送给张总”,实在 Agent  即可自动完成。

告诉实在 Agent 需求,它会将自然语言自动拆解生成流程。

不需要 API,通过 RPA 和 ISSUT 来完成打开钉钉、查找发送人、完成发送。

产品特性概述:

实在智能的 RPA-Agent 将 RPA 的自动化能力与 Agent 智能体的自主决策能力完美融合。它以 TARS 大模型为  “脑”,具备强大的文本生成、语言理解、知识问答和逻辑推理能力。同时,ISSUT(智能屏幕语义理解)技术作为  “眼”,能够支持对电脑、手机、平板等屏幕的理解,精准找到所要操作的屏幕画面上的输入框、登录按钮或者聊天窗口等。

而 RPA/IPA 则如同 “手脚”,负责执行具体的操作任务。这种独特的组合使得实在智能的 RPA  智能体能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验,实现真正的超自动化。例如,当用户发出 “我要买一台笔记本电脑,帮我推荐下” 的指令时,RPA  智能体可将其拆解成 “登录购物网站,查询笔记本电脑品牌、配置、价格等信息,完成产品推荐” 等多个步骤并加以自动实现。

广泛应用场景:

实在智能的 RPA-Agent  在企业办公、客户服务、金融、电商等多个领域都有着广泛的应用。在企业办公领域,它成为员工的智能办公助手,可自动处理日常的行政事务,如撰写邮件、安排会议、整理文件等,减轻员工的工作负担,提升办公效率。

在财务、人力资源等部门也能发挥重要作用,例如进行财务数据的统计分析、协助招聘流程等。在客户服务领域,作为智能客服,它能够快速响应客户的咨询和问题,提供准确的解答和解决方案,改善客户体验。无论是在线客服还是电话客服,都能大大提高服务的质量和效率。

在金融领域,它应用于风险评估、欺诈检测、投资分析等业务流程中,能够快速处理大量的金融数据,识别潜在的风险和机会,为金融决策提供有力支持。在电商领域,它帮助电商企业进行商品推荐、库存管理、订单处理等。通过对用户行为和偏好的分析,精准地为用户推荐商品,提高销售转化率,同时优化库存管理,降低成本。

未来发展前景:

随着技术的不断进步,实在智能的 RPA-Agent  未来发展前景十分广阔。它将在更多的行业和领域得到应用,为人们带来更多的便利和价值。其智能化程度将不断提高,能够处理更加复杂和多样化的任务,甚至具备一定的创造性思维。例如,在未来可能能够根据用户的需求自动设计广告文案、策划营销活动等。

同时,与其他技术的融合也将更加紧密,如与物联网、大数据等技术相结合,发挥出更大的协同效应。在企业数字化转型的浪潮中,实在智能的 RPA-Agent  将成为不可或缺的重要力量,推动企业实现业务流程的自动化和智能化,提升企业的核心竞争力,助力企业在激烈的市场竞争中取得优势。

三、两者对比与思考

Anthropic 的 Computer use 和实在智能的 RPA-Agent  两者虽在功能特性、技术应用、进展阶段、未来趋势存在异曲同工之处,但都推动从 “用户适应软件” 到 “软件适应用户”  的转变,可以预见未来,它将颠覆传统的软件使用方式,为用户带来巨大的便利。

相似点:十分便捷、智能

便捷性: 两者都致力于实现一句话操作电脑,为用户带来极大的便利,让用户无需再进行复杂的软件操作流程,仅通过自然语言指令就能完成各种任务。

智能性:都具备较高的智能水平,能够理解用户的指令并转化为计算机可执行的操作。例如,Anthropic 的  Claude 可以将指令翻译成计算机指令,实在智能的 RPA-Agent 能自主拆解任务并执行。

差异点:应用功能、场景

功能侧重:Anthropic 的 Computer use  主要侧重于模拟人类操作电脑的方式,通过观看屏幕截图来实现移动光标、点击按钮、输入文本等操作。而实在智能的 RPA-Agent 则更注重将 RPA 的自动化能力与  Agent 智能体的自主决策能力融合,以 TARS 大模型为 “脑”,ISSUT 技术为 “眼”,RPA/IPA 为 “手脚”,实现超自动化。

应用场景:Computer use 在一些特定的软件开发和研究等场景中表现出色,适合开发者使用。实在智能的  RPA-Agent 应用场景更加广泛,涵盖企业办公、客户服务、金融、电商等多个领域。

未来 AI 操作电脑工具的发展趋势将呈现以下几个特点。一是智能化程度不断提高,随着人工智能技术的不断进步,AI  操作的电脑工具将变得更加智能,能够更好地理解用户的指令,处理更加复杂的任务。例如,能够准确识别用户的意图,即使是模糊的指令也能进行合理的推测和执行。二是融合更多技术,AI 操作电脑工具将与更多的技术融合,如虚拟现实、增强现实、物联网、大数据等。这将为用户带来更加沉浸式、互动式的使用体验,同时也能更好地发挥协同效应,提高工作效率。三是个性化服务,未来的 AI 操作电脑工具将更加注重个性化服务,能够根据用户的习惯和偏好进行定制化设置。例如,根据用户的工作方式和需求,自动调整软件界面和操作流程,提供更加贴心的服务。

当然,随着人们对数据安全和隐私的关注度不断提高,未来的 AI  操作电脑工具将加强安全与隐私保护措施。采用更加先进的加密技术和安全认证机制,确保用户数据的安全。同时,严格遵守相关的法律法规,保护用户的隐私权益。

编辑:rwzh4

分享