标签: Unicode

9 个内容

笔记(8)

本文针对正则表达式中词边界`\b`在处理中英文混排时失效的问题,提出了使用Unicode属性和环视(lookaround)的解决方案。针对JavaScript、Python和Go等常见语言,分别给出了使用建议和规避方案,并提供了多个典型用例。核心是CJK场景下避免依赖`\b`,利用环视和Unicode属性类实现更精确的匹配。

Elliot Yang·
77 浏览

本文总结了JavaScript中使用`new RegExp()`的注意事项与安全转义方法。针对动态生成正则时出现的转义问题和安全风险,提出了使用`escapeRegExp`函数对用户输入进行转义的方案,并封装了`makeSafeRegex`函数以支持更安全的正则构造,同时避免替换中的特殊字符被转义。

Elliot Yang·
91 浏览

Unicode字符类正则表达式`[\\pP\\pS\\pZ]`用于匹配标点符号(\pP)、符号(\pS)和分隔符(\pZ)。常用于文本清理、数据预处理、格式验证和分词处理,可匹配中英文标点、数学符号、货币符号及空格等,适用于处理多语言文本中的非字母数字字符。

Elliot Yang·
336 浏览

本文深入解析CJK字符体系,涵盖编码演进、Unicode挑战、排版布局、NLP处理及前沿争议。内容包括GB2312、Shift_JIS等编码标准,Unicode及扩展,字符渲染,输入法引擎,纵向排版,分词差异,字体技术革新,OCR优化及工程实践建议。

Elliot Yang·
236 浏览

本文概述了字符编码从ASCII到UTF-8的演进。ASCII虽是基础,但扩展性不足;UTF-8以其兼容性、空间效率和容错性成为统一方案。文章还探讨了UTF-8的技术争议、工程实践、行业趋势及开发建议,强调了编码在构建无国界信息桥梁中的重要性。

Elliot Yang·
108 浏览

本文深入解析了 JavaScript 核心机制,包括 caller 的底层原理及替代方案,this 绑定机制及解决方案,以及 Unicode 字符串处理,如 UTF-16 编码、代理对、Unicode 规范化及最佳实践。强调理解规范定义与引擎实现,并关注 ECMAScript 新特性。

Elliot Yang·
105 浏览

本文档介绍了 JavaScript 内置对象 Function 和 String 的相关知识。Function 部分涉及 `caller` 属性和 `this` 指向问题。String 部分讨论了 surrogate pair 的处理,以及 Unicode Decomposition 和 normalize 方法的使用。

Elliot Yang·
95 浏览

本文介绍了字符编码,重点对比了 ASCII 和 UTF-8。ASCII 使用 0-127 表示常用字符,UTF-8 是一种变长编码,兼容 ASCII,可使用 1-4 字节表示符号,编码规则基于 Unicode 码范围确定字节长度和格式。

Elliot Yang·
130 浏览

动态(1)