标签: 多模态

5 个内容

笔记(2)

深度学习模型演进

本文概述了深度学习模型的发展，从CNN到Transformer的技术演进，以及目标检测、实例分割等应用。重点介绍了Faster R-CNN、YOLO、ViT和Swin Transformer等模型，并探讨了模型选型、部署优化、多模态融合及小目标检测等问题，展望了未来趋势。

深度学习计算机视觉 CNN 目标检测 YOLO 模型部署多模态

非凡少年·2025/03/17

226 浏览

开源PDF解析：olmOCR

olmOCR基于Qwen2-VL模型，利用Transformer架构和视觉-语言联合预训练解析PDF，成本低于GPT-4o。它采用文档锚定技术，并针对模型压缩、推理加速和硬件适配进行优化。实测中，该方案在公式检测和法律合同解析方面表现出色，但对古籍和流程图的支持有限。

技术人工智能 PDF解析 Qwen2-VL 多模态文档智能模型优化

非凡少年·2025/03/01

399 浏览

动态(3)

非

非凡少年

2026-03-18 10:25

公开

维度	传统 NLP 辅助 TTS	大模型 (LLM) 驱动 TTS
核心逻辑	基于规则或小型模型预测发音	基于概率预测语音 Token
情感表现	刻板、预设的情感模板	自然、随文意变化的细腻情感
上下文感知	仅限于句子内部	能跨段落感知语境和角色性格
处理复杂文本	容易在多音字上出错	容错率极高，能模仿口语碎碎念

#技术 #人工智能 #大语言模型 #TTS #语音合成 #自然语言处理 #多模态 #生成式AI

浏览:238点赞:0

非

非凡少年

2025-03-07 23:19

公开

Mistral推出新API，将PDF文档转换为AI可用的Markdown文件 Mistral推出了一款新的OCR API，名为Mistral OCR，旨在将复杂的PDF文档转换为文本文件，以便AI模型更轻松地处理。与大多数OCR API不同，Mistral OCR是多模态API，能够检测并处理文本中的插图和照片，生成带有格式化元素的Markdown文件。Mistral称其OCR模型在处理包含数学表达式、复杂布局或表格的文档时表现优于Google、Microsoft和OpenAI的API，且在非英语文档处理上也有优势。

TechCrunch

📮投稿 ☘️频道 🌸聊天 🗞️𝕏

#人工智能 #文档处理 #Mistral #OCR #Markdown #多模态 #PDF转换 #API

浏览:202点赞:0

非

非凡少年

2023-09-21 08:58

公开

OpenAI 发布自然语言图像生成模型 DALL·E 3

DALL·E 3 原生构建在 ChatGPT 上，你可以与 ChatGPT 沟通来进行内容的详细定制。这一点与完全基于 CLIP (图像-文本映射模型) 的其它图像生成AI截然不同，DALL·E 3 有着真正的"思考推理大脑"，这使它对画面的细节有着相当大的掌控力，并且不再需要复杂的 prompt 工程即可理解你的想法。

OpenAI

投稿：@ZaiHuaBot 频道：@TestFlightCN

行道上熙熙攘攘的行人享受着夜生活在街角的小摊上，一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子正在和脾气暴躁的老小贩讨价还价满月照耀下繁华的城市街道地交谈。这个脾气暴躁的小贩高大，老道，穿着一套整洁的西装，留着引人注目的小胡子，正在用他那部蒸汽朋克式电话兴致勃勃

#人工智能 #图像生成 #DALL·E 3 #ChatGPT #多模态 #CLIP #提示词工程 #OpenAI

浏览:218点赞:0