标签: Unicode
9 个内容
笔记(8)
本文针对正则表达式中词边界`\b`在处理中英文混排时失效的问题,提出了使用Unicode属性和环视(lookaround)的解决方案。针对JavaScript、Python和Go等常见语言,分别给出了使用建议和规避方案,并提供了多个典型用例。核心是CJK场景下避免依赖`\b`,利用环视和Unicode属性类实现更精确的匹配。
本文总结了JavaScript中使用`new RegExp()`的注意事项与安全转义方法。针对动态生成正则时出现的转义问题和安全风险,提出了使用`escapeRegExp`函数对用户输入进行转义的方案,并封装了`makeSafeRegex`函数以支持更安全的正则构造,同时避免替换中的特殊字符被转义。
Unicode字符类正则表达式`[\\pP\\pS\\pZ]`用于匹配标点符号(\pP)、符号(\pS)和分隔符(\pZ)。常用于文本清理、数据预处理、格式验证和分词处理,可匹配中英文标点、数学符号、货币符号及空格等,适用于处理多语言文本中的非字母数字字符。
本文深入解析了 JavaScript 核心机制,包括 caller 的底层原理及替代方案,this 绑定机制及解决方案,以及 Unicode 字符串处理,如 UTF-16 编码、代理对、Unicode 规范化及最佳实践。强调理解规范定义与引擎实现,并关注 ECMAScript 新特性。
本文档介绍了 JavaScript 内置对象 Function 和 String 的相关知识。Function 部分涉及 `caller` 属性和 `this` 指向问题。String 部分讨论了 surrogate pair 的处理,以及 Unicode Decomposition 和 normalize 方法的使用。