标签: 人工智能
59 个内容
笔记(9)
动态(50)
#Blog #AI
🧑🏻💻 你不知道的 Agent:原理、架构与工程实践
今天这篇文章源于写完「你不知道的 Claude Code」之后,发现自己对 Agent 底层的理解还差一截,加上团队在 Agent 方向已经有不少业务落地,一直缺一份系统梳理,所以又把资料、开源实现和自己写的代码重新过了一遍。
刚开始我也觉得 Agent 效果不稳是模型能力不够,换更贵的模型就能解决。后来发现提升往往没有想象中那么大,反而是 Harness 搭得好不好、工具描述准不准、上下文有没有分层管理,才是决定成功率的真正变量。
这篇文章想和大伙聊清楚这几个点:Agent Loop 的控制流怎么运转、Harness 为什么比模型更关键、上下文工程为什么决定稳定性、工具设计的核心原则、记忆系统怎么分层、多 Agent如何协作组织,以及评测和追踪体系怎么搭。
频道:@NewlearnerChannel
OpenAI 推出 ChatGPT 数学与科学交互式可视化学习功能
OpenAI 3 月 10 日宣布,为 ChatGPT 引入“动态可视化解释”,覆盖 70 余个核心数学与科学概念。系统在回答相关问题时将展示交互式视觉模块,用户可调整变量、操作公式并实时查看图表与结果变化;该体验将自即日起面向全球、所有套餐的已登录用户逐步上线。
OpenAI 表示,ChatGPT 每周有约 1.4 亿人仅为理解数学与科学概念而使用该产品。早期测试中,高中与大学生、家长及教育者反馈该交互体验有助于理解变量关系;公司称将扩展到更多学科,并在既有 study mode 与 quizzes 基础上继续完善学习工具。
[Meme] humansAreDestinedToJustWatchAds https://redd.it/1p5dmc5
by @programmer_humor
from Programmer Humor
📱 Google Drive 新增 AI 音频摘要功能,可将 PDF 转换为播客风格音频
Google 宣布为 Google Workspace 用户推出新的 AI 功能,可将"冗长、文本密集的 PDF"转换为"对话式、播客风格的音频摘要"。该功能采用与 NotebookLM 中广受欢迎的 Audio Overview 相同的底层技术。
用户在 Google Drive 中打开 PDF 时,顶部会出现 Audio Overviews 按钮,点击后可创建音频摘要。生成的音频文件会自动保存到 Drive 的"Audio overviews"文件夹中,用户可在手机或桌面设备上随时收听。目前该功能每天限制生成 20 个摘要,仅支持英文 PDF,已对所有 Google Workspace 用户默认启用。
♻️ 英伟达成为首个市值突破 5 万亿美元的公司
北京时间 10 月 29 日晚间,英伟达股价开涨 3%,市值突破 5 万亿美元大关,创造历史。截至发稿,英伟达涨超 5%,总市值超过 5.1 万亿美元,单日增加 2500 亿美元。
消息面上,英伟达 CEO 黄仁勋周二在华盛顿开发者大会上宣布了一系列新产品和交易,该公司表示其人工智能处理器已获得 5000 亿美元订单,并将为美国能源部建造七台新的超级计算机。英伟达从 4 万亿美元跨越到 5 万亿美元仅用时 113 天,而从 3 万亿到 4 万亿则耗时 410 天。
腾讯发布混元 3D-Omni 和混元 3D-Part 两款开源 3D 生成模型
腾讯混元今日发布并开源两款新的 3D 生成模型:混元 3D-Omni 和混元 3D-Part,旨在解决游戏建模和 3D 打印等实际应用中的痛点。混元 3D-Omni 作为业界首个统一支持多条件控制的 3D 生成框架,突破传统图像输入局限,支持骨骼、点云、边界框、体素等多种模态输入,实现对物体几何结构、拓扑和姿态的精细控制。
混元 3D-Part 则专注解决 3D 生成的"拆解难题",由原生 3D 分割模型 P3-SAM 与组件生成模型 X-Part 组成,支持 50+ 组件自动生成,让 3D 模型像乐高积木一样可拆卸重组。两款模型均完整开放推理代码和权重,免费供学术研究和工业部署使用。
YouTube推出AI唇形同步技术
YouTube在本月的"Made on YouTube"活动中宣布,将为自动配音视频引入AI唇形同步功能。该技术使用AI将说话者的嘴唇动作与生成的音频轨道进行视觉同步,解决配音中音画不匹配的问题。
新功能将首先支持20种语言,包括英语、德语、法语和西班牙语。创作者可通过YouTube Studio选择加入该功能,初期测试将面向YouTube合作伙伴计划成员。早期测试显示,一些频道采用多语言音频轨道后,非母语观众数量增长了两倍。
开源项目分享:TextGAN-D 深度研究代理:Agent 设计新范式,探索LLM研究新路径
基于新的TextGAN-D 架构的深度研究代理 (Deep Research Agent) 已在 GitHub 开放源代码。该项目结合了传统深度学习方法与 Agent 设计,在低成本上实现了高质量的自动研究。
作为一个开源且免费的方案,它为社区提供了一个无需高昂成本即可探索高级 LLM 科研自动化的机会,与部分商业方案(如OpenAI的Deep Research)的高昂费用形成对比。
现在,您无需向 OpenAI 支付 200 USD 便可享受科研自动化的便利😋
💡 本频道仅作项目分享,风险自控
#AI #Photos #Web
🎨 AI Color Match by Polarr Next:在线一键模仿调色
🔗:Web
👉 Features
- 上传图像,用 AI 分析并模仿色调,为其他图片一键调色
- 支持导出为图片 / Lightroom Profile / LUT 文件
- 多种预设色调可选
- 登录后免费使用
🌸 今年三月我拍了有史以来最多的春花和人像,但索尼毕竟不像富士、理光等相机有着比较鲜艳独特的色彩,我也不是一个前期完美主义者,于是怎么给这些照片后期调色就成了一个难题
🧑🏻💻 后来我基本上花了一整个星期,去给这几百张照片选择适合它们的色调,在 Lightroom 上修修改改,非常疲惫。自己调色的好处就是能够把控每一处细节,使得结果高度符合内心的预期,缺点就是需要一直动脑,并且花费时间太长
💡 今天介绍的 AI Color Match 是 Polarr Next 出品的一个小工具,后者做的就是图片批量 AI 编辑的生意,不过这个小工具是免费的。你可以上传几张自己不太满意色调的图片,去套模板看看效果,个人感觉还是不错的
👀 调色过程中需要注意培养自己的思路和软件使用技巧,这样才能不断进步。如果你只想要通过简单的方式得到想要的色调,无论是 AI Color Match、Imangen AI 还是 iPhone 上面大火的 Dazz 都可以试试
📘 关联阅读:
1️⃣ 1001 个小而美 App:一些也许冷门的复古相机 App 2️⃣ Palette:利用 AI 为图片在线调色
频道:@NewlearnerChannel
Mistral推出新API,将PDF文档转换为AI可用的Markdown文件 Mistral推出了一款新的OCR API,名为Mistral OCR,旨在将复杂的PDF文档转换为文本文件,以便AI模型更轻松地处理。与大多数OCR API不同,Mistral OCR是多模态API,能够检测并处理文本中的插图和照片,生成带有格式化元素的Markdown文件。Mistral称其OCR模型在处理包含数学表达式、复杂布局或表格的文档时表现优于Google、Microsoft和OpenAI的API,且在非英语文档处理上也有优势。
分享一个自用的、优化过多次的prompt(V3版本),“指导方针”部分我是为了适应obsidian笔记,可自行修改:
你是一位具备超学科思维架构的顶级顾问,采用「系统论+第一性原理+渐进式认知升级」的复合思考模式。每次回答必须经过5层验证:事实核查→逻辑自洽→学科交叉验证→现实应用映射→认知边界拓展。核心思考流程:
问题解构
- 拆解核心概念至不可分割要素
- 建立跨领域连接(经济/心理/复杂系统)
本质洞察
- 追溯问题底层逻辑
- 识别关键作用力与反馈回路
认知验证
- 三重验证:经典理论+前沿研究+现实案例
- 重点考察:逻辑漏洞/学科偏见/过时假设
数据要求:
- 时效:优先近3年《Nature》《Science》研究
- 溯源:标注概念学科起源(例:[行为经济学]沉没成本)
- 验证:交叉核对学术论文/企业年报/政府数据
认知增强模块:
- 每次输出附加:
- 颠覆性拷问(例:量子计算如何改变此系统?)
- 跨维连接(例:用生态学解释经济现象)
- 元认知检测(例:当前分析框架的观察者偏差)
- 认知升级阅读列表(书籍或含链接等文章)
** 指导方针:**
- 系统性核查:内容核查 ≥3 次,确保逻辑自洽,提供来源。
- 个性化:根据用户背景和兴趣,调整回答的系统结构。
- 跨学科融合:融入跨学科视角,构建知识网络。
- 渐进式升级:从简入深,逐步增加细节,引导认知提升。
- 结构:使用小标题、列表、表格等格式,确保逻辑清晰。
- 格式:
- 股票:[[代码]](如[[SPY]]);
- 重点词:[[学科]]、[[术语]]、[[书名]]加
[[ ]];- 重要文字加粗。
- 输出:标准 Markdown 格式。
Meta 发布 Llama 3 —— 迄今最强大的公开语言模型
Llama 3 的 8B 和 70B 型号拥有 8K 上下文窗口,经过 15T tokens 预训练,训练数据比 Llama 2 大了七倍,并且包含四倍多的代码。
其中 Llama 3-8B 的性能就已优于 Llama 2-70B。人类择优测试中 Llama 3-70B 远胜于 Claude 3 Sonnet、Mistral Medium 和 GPT-3.5。
Llama 3 的多模态和更大的版本将在数月内推出,其中最为强大的 Llama 3-400B+ 仍在训练中,三天前的基准测试结果已经持平 Claude 3 Opus 超过 Gemini Pro 1.5,仅数学落后最先进的 GPT-4-2024-04-09。
线索:@ZaiHuabot 投稿:@TNSubmbot 频道:@TestFlightCN