一句话操作电脑！Computer use和实在Agent

就在刚刚，OpenAI 头号竞争对手 Anthropic 推出了 “computer use” 功能，让 Claude 能够像人类一样操作电脑了！看屏幕、动光标、点按钮、打字等。通过 API，开发者可以让 Claude 将指令翻译成计算机指令，从而解放一些枯燥的重复性流程任务。

一、西方的Anthropic 的 Computer use：

开发人员可以通过 Anthropic 的 API、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台试用Computer Use 。

功能特性解析：

Claude 模型通过 API 实现了令人惊叹的像人一样操作电脑的能力。它能够观看屏幕截图，精准地移动光标，在需要的位置点击按钮，还能使用虚拟键盘输入文本。这种操作方式真正模拟了人类与计算机交互的方式，让 AI 助手不再局限于专门定制的工具，而是可以直接使用为人类设计的各类软件。

例如，在多个演示视频中，Claude 可以丝滑地执行打开软件、网页搜索、文本输入、编写代码、下载文件、debug、查找网页表格并填入信息等任务。

实验阶段表现：

目前，Anthropic 的 Computer use 功能处于实验阶段，确实存在一些不足之处。操作速度较慢，一些简单的操作如滚动、拖拽和缩放等，对 Claude 来说仍具有相当的挑战性。

在基准测试中，Claude 在 OSWorld 电脑操作评估测试中获得了 14.9% 的成绩，远超其他 AI 模型的 7.8% 最高分，但与人类的 70 - 75% 的水平相比仍有相当大的差距。当用户提供更多完成任务所需的步骤时，Claude 的得分可以提升到 22.0%。

在软件工程方面，新版 Claude 3.5 Sonnet 在 SWE-bench Verified 评测中的得分从 33.4% 大幅跃升至 49.0%，一举超越了包括 OpenAI o1-preview 在内的所有公开可用模型。在零售领域的 TAU-bench 测试中，其表现从 62.6% 提升到 69.2%，在难度更高的航空领域测试中也从 36.0% 提升至 46.0%。

开发者反馈与未来展望：

官方提前发布这项功能，是为了获取开发者的反馈。随着开发者的积极参与，预计这一功能将随着时间逐渐改进。未来，Computer use 功能有望变得更快、更可靠、更容易使用。Anthropic 可能会进一步优化 Claude 的操作速度，减少错误的发生。

同时，可能会通过更多的训练和优化，让 Claude 在处理复杂任务时更加得心应手，逐渐接近人类的操作水平。例如，在处理一些需要快速响应的任务时，Claude 可能会更加高效地移动光标、点击按钮和输入文本。此外，随着技术的不断进步，可能会有更多的软件和工具被 Claude 熟练掌握，为用户提供更加丰富和便捷的服务。

二、东方的“实在Agent”：不仅能像人一样操作电脑，还能操作手机！

在人们对国外科技的迅猛发展赞叹不已之际，其实早在去年，即 2023 年 8 月，国人团队 “实在智能” ，就已率先推出国内外首个 “实在 Agent” 智能体。

它不仅能像人一样操作电脑，还能操作手机！

该智能体借助垂直大语言模型 TARS，调用 RPA 和 ISSUT 来完成点击、输入、下载等任务。它无需 API，能够为企业员工配备全能业务专家，实现超自动化执行以及自然对话式交互，堪称智能办公的 “AI 个人助理”。用户可以通过实在智能官网下载 AI 产品“实在 Agent 智能体”。

在一个办公场景中，如果你想将销售人员的业绩排序，并把结果通过钉钉发送给张总，过去需要找到桌面上的表格，打开进行排序，再保存关闭后发给张总。现在打开实在 Agent 智能体，输入“读取桌面上的销售业绩清单，按照销售人员统计销售金额并从高到低排序，将结果文件通过钉钉发送给张总”，实在 Agent 即可自动完成。

告诉实在 Agent 需求，它会将自然语言自动拆解生成流程。

不需要 API，通过 RPA 和 ISSUT 来完成打开钉钉、查找发送人、完成发送。

产品特性概述：

实在智能的 RPA-Agent 将 RPA 的自动化能力与 Agent 智能体的自主决策能力完美融合。它以 TARS 大模型为 “脑”，具备强大的文本生成、语言理解、知识问答和逻辑推理能力。同时，ISSUT(智能屏幕语义理解)技术作为 “眼”，能够支持对电脑、手机、平板等屏幕的理解，精准找到所要操作的屏幕画面上的输入框、登录按钮或者聊天窗口等。

而 RPA/IPA 则如同 “手脚”，负责执行具体的操作任务。这种独特的组合使得实在智能的 RPA 智能体能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验，实现真正的超自动化。例如，当用户发出 “我要买一台笔记本电脑，帮我推荐下” 的指令时，RPA 智能体可将其拆解成 “登录购物网站，查询笔记本电脑品牌、配置、价格等信息，完成产品推荐” 等多个步骤并加以自动实现。

广泛应用场景：

实在智能的 RPA-Agent 在企业办公、客户服务、金融、电商等多个领域都有着广泛的应用。在企业办公领域，它成为员工的智能办公助手，可自动处理日常的行政事务，如撰写邮件、安排会议、整理文件等，减轻员工的工作负担，提升办公效率。

在财务、人力资源等部门也能发挥重要作用，例如进行财务数据的统计分析、协助招聘流程等。在客户服务领域，作为智能客服，它能够快速响应客户的咨询和问题，提供准确的解答和解决方案，改善客户体验。无论是在线客服还是电话客服，都能大大提高服务的质量和效率。

在金融领域，它应用于风险评估、欺诈检测、投资分析等业务流程中，能够快速处理大量的金融数据，识别潜在的风险和机会，为金融决策提供有力支持。在电商领域，它帮助电商企业进行商品推荐、库存管理、订单处理等。通过对用户行为和偏好的分析，精准地为用户推荐商品，提高销售转化率，同时优化库存管理，降低成本。

未来发展前景:

随着技术的不断进步，实在智能的 RPA-Agent 未来发展前景十分广阔。它将在更多的行业和领域得到应用，为人们带来更多的便利和价值。其智能化程度将不断提高，能够处理更加复杂和多样化的任务，甚至具备一定的创造性思维。例如，在未来可能能够根据用户的需求自动设计广告文案、策划营销活动等。

同时，与其他技术的融合也将更加紧密，如与物联网、大数据等技术相结合，发挥出更大的协同效应。在企业数字化转型的浪潮中，实在智能的 RPA-Agent 将成为不可或缺的重要力量，推动企业实现业务流程的自动化和智能化，提升企业的核心竞争力，助力企业在激烈的市场竞争中取得优势。

三、两者对比与思考

Anthropic 的 Computer use 和实在智能的 RPA-Agent 两者虽在功能特性、技术应用、进展阶段、未来趋势存在异曲同工之处，但都推动从 “用户适应软件” 到 “软件适应用户” 的转变，可以预见未来，它将颠覆传统的软件使用方式，为用户带来巨大的便利。

相似点：十分便捷、智能

便捷性：两者都致力于实现一句话操作电脑，为用户带来极大的便利，让用户无需再进行复杂的软件操作流程，仅通过自然语言指令就能完成各种任务。

智能性：都具备较高的智能水平，能够理解用户的指令并转化为计算机可执行的操作。例如，Anthropic 的 Claude 可以将指令翻译成计算机指令，实在智能的 RPA-Agent 能自主拆解任务并执行。

差异点：应用功能、场景

功能侧重：Anthropic 的 Computer use 主要侧重于模拟人类操作电脑的方式，通过观看屏幕截图来实现移动光标、点击按钮、输入文本等操作。而实在智能的 RPA-Agent 则更注重将 RPA 的自动化能力与 Agent 智能体的自主决策能力融合，以 TARS 大模型为 “脑”，ISSUT 技术为 “眼”，RPA/IPA 为 “手脚”，实现超自动化。

应用场景：Computer use 在一些特定的软件开发和研究等场景中表现出色，适合开发者使用。实在智能的 RPA-Agent 应用场景更加广泛，涵盖企业办公、客户服务、金融、电商等多个领域。

未来 AI 操作电脑工具的发展趋势将呈现以下几个特点。一是智能化程度不断提高，随着人工智能技术的不断进步，AI 操作的电脑工具将变得更加智能，能够更好地理解用户的指令，处理更加复杂的任务。例如，能够准确识别用户的意图，即使是模糊的指令也能进行合理的推测和执行。二是融合更多技术，AI 操作电脑工具将与更多的技术融合，如虚拟现实、增强现实、物联网、大数据等。这将为用户带来更加沉浸式、互动式的使用体验，同时也能更好地发挥协同效应，提高工作效率。三是个性化服务，未来的 AI 操作电脑工具将更加注重个性化服务，能够根据用户的习惯和偏好进行定制化设置。例如，根据用户的工作方式和需求，自动调整软件界面和操作流程，提供更加贴心的服务。

当然，随着人们对数据安全和隐私的关注度不断提高，未来的 AI 操作电脑工具将加强安全与隐私保护措施。采用更加先进的加密技术和安全认证机制，确保用户数据的安全。同时，严格遵守相关的法律法规，保护用户的隐私权益。

编辑：rwzh4