标签: OCR

4 个内容

笔记(3)

CJK字符全解

本文深入解析CJK字符体系，涵盖编码演进、Unicode挑战、排版布局、NLP处理及前沿争议。内容包括GB2312、Shift_JIS等编码标准，Unicode及扩展，字符渲染，输入法引擎，纵向排版，分词差异，字体技术革新，OCR优化及工程实践建议。

技术自然语言处理字符编码 Unicode 字体渲染输入法纵向排版 OCR

非凡少年·2025/02/20

351 浏览

OCR与前端优化

本文深入解析Tesseract多语言OCR、浏览器文本选择及颜色选择器工程实践。强调多语言识别的底层机制和优化Worker架构，以及SPINN架构的最新进展。探讨了Selection API及高级控制，分析了颜色选择器的现代扩展能力和企业级方案对比。最后，提出了OCR微服务化和前端交互标准化的架构设计。

技术前端开发 OCR 浏览器API 颜色选择器

非凡少年·2025/02/16

196 浏览

效率提升与问题记录：我的2023-02-06周报

该周报总结了作者近期工作，主要关注效率提升方案。通过 Auto Import + Do not import exactly from 提升编码效率，并利用 Raycast 结合 macOCR 实现快速 OCR。记录了 Monaco Editor 语言 ID 错误和 WebStorm 的 BUG。此外，推荐了带 AI 的搜索引擎 you.com。

技术开发工具效率工具 OCR WebStorm AI搜索周报

非凡少年·2023/02/06

220 浏览

动态(1)

非

非凡少年

2025-03-07 23:19

公开

Mistral推出新API，将PDF文档转换为AI可用的Markdown文件 Mistral推出了一款新的OCR API，名为Mistral OCR，旨在将复杂的PDF文档转换为文本文件，以便AI模型更轻松地处理。与大多数OCR API不同，Mistral OCR是多模态API，能够检测并处理文本中的插图和照片，生成带有格式化元素的Markdown文件。Mistral称其OCR模型在处理包含数学表达式、复杂布局或表格的文档时表现优于Google、Microsoft和OpenAI的API，且在非英语文档处理上也有优势。

TechCrunch

📮投稿 ☘️频道 🌸聊天 🗞️𝕏

#人工智能 #文档处理 #Mistral #OCR #Markdown #多模态 #PDF转换 #API

浏览:202点赞:0