标签: Unicode

9 个内容

笔记(8)

正则表达式：单词边界与环视的终极指南

本文针对正则表达式中词边界`\b`在处理中英文混排时失效的问题，提出了使用Unicode属性和环视（lookaround）的解决方案。针对JavaScript、Python和Go等常见语言，分别给出了使用建议和规避方案，并提供了多个典型用例。核心是CJK场景下避免依赖`\b`，利用环视和Unicode属性类实现更精确的匹配。

技术编程正则表达式 Unicode 环视 JavaScript Python Go

非凡少年·2025/09/24

157 浏览

JavaScript RegExp 安全转义指南

本文总结了JavaScript中使用`new RegExp()`的注意事项与安全转义方法。针对动态生成正则时出现的转义问题和安全风险，提出了使用`escapeRegExp`函数对用户输入进行转义的方案，并封装了`makeSafeRegex`函数以支持更安全的正则构造，同时避免替换中的特殊字符被转义。

前端开发 JavaScript 正则表达式字符串安全代码安全 Unicode 转义处理动态正则

非凡少年·2025/09/24

174 浏览

Unicode字符类正则：`[\\pP\\pS\\pZ]`详解

Unicode字符类正则表达式`[\\pP\\pS\\pZ]`用于匹配标点符号(\pP)、符号(\pS)和分隔符(\pZ)。常用于文本清理、数据预处理、格式验证和分词处理，可匹配中英文标点、数学符号、货币符号及空格等，适用于处理多语言文本中的非字母数字字符。

技术编程正则表达式 Unicode JavaScript Go 文本处理数据清洗

非凡少年·2025/07/07

478 浏览

CJK字符全解

本文深入解析CJK字符体系，涵盖编码演进、Unicode挑战、排版布局、NLP处理及前沿争议。内容包括GB2312、Shift_JIS等编码标准，Unicode及扩展，字符渲染，输入法引擎，纵向排版，分词差异，字体技术革新，OCR优化及工程实践建议。

技术自然语言处理字符编码 Unicode 字体渲染输入法纵向排版 OCR

非凡少年·2025/02/20

351 浏览

字符编码简史

本文概述了字符编码从ASCII到UTF-8的演进。ASCII虽是基础，但扩展性不足；UTF-8以其兼容性、空间效率和容错性成为统一方案。文章还探讨了UTF-8的技术争议、工程实践、行业趋势及开发建议，强调了编码在构建无国界信息桥梁中的重要性。

技术计算机科学字符编码 UTF-8 ASCII Unicode 编程实践文本处理

非凡少年·2025/02/17

193 浏览

JS 核心机制解析

本文深入解析了 JavaScript 核心机制，包括 caller 的底层原理及替代方案，this 绑定机制及解决方案，以及 Unicode 字符串处理，如 UTF-16 编码、代理对、Unicode 规范化及最佳实践。强调理解规范定义与引擎实现，并关注 ECMAScript 新特性。

技术编程 JavaScript this绑定 Unicode UTF-16 ECMAScript 执行上下文

非凡少年·2025/02/17

178 浏览

JavaScript 内置对象详解

本文档介绍了 JavaScript 内置对象 Function 和 String 的相关知识。Function 部分涉及 `caller` 属性和 `this` 指向问题。String 部分讨论了 surrogate pair 的处理，以及 Unicode Decomposition 和 normalize 方法的使用。

技术编程 JavaScript this指向 Unicode 字符串处理 ES6 内置对象

非凡少年·2023/02/16

158 浏览

字符编码：ASCII与UTF-8

本文介绍了字符编码，重点对比了 ASCII 和 UTF-8。ASCII 使用 0-127 表示常用字符，UTF-8 是一种变长编码，兼容 ASCII，可使用 1-4 字节表示符号，编码规则基于 Unicode 码范围确定字节长度和格式。

技术计算机基础字符编码 ASCII UTF-8 Unicode 编码规则

非凡少年·2023/01/16

202 浏览

动态(1)

非

非凡少年

2025-03-11 08:33

公开

?
https://x.com/LaoshuBaby/status/1897695148622201118 https://www.zhihu.com/question/41218947/answer/90088480

from 現実的論理主義者

$为电金结一业什么日语Windows下的路径分隔符使用￥? 为什么不和其他语言一样使用\? 关注问题，罢写回答邀请回答好问题筘时接多情一地添加评论磕者么分享て新查看全部 4 个回答驥成上这及elleve 击@ 计算机科学等2个话题下的优秀答主十关注 43 人赞同了该回答》 JIS-X-0201 里面，0x5C 对应的符号被替换成了￥(类似的还有 0x7E，换成了上划线门) JIS X0201はラテン文字用図形文字集合と片仮名用図形文字集合のぷたつの文字集合よりなっている。このうちラテン文字用図形文字集合はAmerican Standard Code for Information Interchange (ASCll)と同様ISO/IEC 646の版の1つとなっている。ASCIと比較すると2文字が異なっており、92番の文字にバックスラッシュ ("\') の替わりに円記号('¥)が、126番にチルタ ('~') の替わりにオ-バ-ライン(-)が割り当てられている。片仮名用図形文字集合は片仮名と日本語用の約物よりなっており、最後の31文字分は未定義となっている。また、単独の濁点と半濁点のみ収録されており濁点付き片仮名と半濁点付き片仮名は収録されていない。后来统一到 Unicode+ 之后为了维持外观的兼容，MS Gothic+/MS Mincho 字体中，「」被特别画成「¥」的样子。韩国的 KS-X-1001+也有类似的现象，0x5℃ 给换成了. 编辑于 2016-03-10 18:41 ^赞同 43 ●6 条评论賺在会收藏喜欢$

#技术 #计算机 #编码 #Unicode #字符集 #JIS #Windows #历史

浏览:212点赞:0