标签: 文本处理

8 个内容

返回标签列表

笔记(6)

OpenAI语言模型Token化原理

OpenAI大型语言模型使用tokens处理文本，tokens为文本中常见字符序列。模型通过学习tokens间统计关系，擅长预测序列中的下一个token。该工具帮助理解分词机制。

技术人工智能 OpenAI 大语言模型分词机制文本处理

非凡少年·2026/04/07

169 浏览

Unicode字符类正则：`[\\pP\\pS\\pZ]`详解

Unicode字符类正则表达式`[\\pP\\pS\\pZ]`用于匹配标点符号(\pP)、符号(\pS)和分隔符(\pZ)。常用于文本清理、数据预处理、格式验证和分词处理，可匹配中英文标点、数学符号、货币符号及空格等，适用于处理多语言文本中的非字母数字字符。

技术编程正则表达式 Unicode JavaScript Go 文本处理数据清洗

非凡少年·2025/07/07

478 浏览

grep 命令实用技巧：从入门到精通

本文全面介绍了 `grep` 命令的实用技巧，涵盖基础搜索、正则表达式、文件目录操作、上下文显示、计数统计、反向搜索等功能。通过丰富的实例，展示了 `grep` 在日志分析、系统管理、开发调试及网络安全等场景中的应用，并提供了高级技巧和性能优化建议。

技术 Linux 命令行正则表达式日志分析 Shell脚本系统管理文本处理

非凡少年·2025/06/03

160 浏览

Linux运维核心技能

深入解析Linux运维，涵盖文件操作（`ls`, `grep`, `awk`），系统管理（进程、用户、时钟），网络调试(代理协议)，命令原理（`which` vs `command`），以及eBPF、exa/jq/ripgrep等前沿工具和安全审计最佳实践。

技术 Linux运维命令行工具 eBPF Shell脚本网络安全系统管理文本处理

非凡少年·2025/02/17

211 浏览

字符编码简史

本文概述了字符编码从ASCII到UTF-8的演进。ASCII虽是基础，但扩展性不足；UTF-8以其兼容性、空间效率和容错性成为统一方案。文章还探讨了UTF-8的技术争议、工程实践、行业趋势及开发建议，强调了编码在构建无国界信息桥梁中的重要性。

技术计算机科学字符编码 UTF-8 ASCII Unicode 编程实践文本处理

非凡少年·2025/02/17

193 浏览

Linux 命令速查与 AWK 技巧

本文档记录了常用的 Linux 命令。主要内容包括：文件大小查看（ll 命令参数），grep 搜索空格字符串的转义方法，以及强大的 awk 命令的使用，包括语法、选项、内置变量和常见示例（如提取特定行、字段等）。此外，还介绍了端口占用查询、mkdir -p、用户删除、用户查看、时间获取、which 和 command -v 的区别，以及 curl 使用代理的方法。

技术 Linux AWK 命令行 Shell脚本系统管理文本处理网络工具

非凡少年·2023/01/09

159 浏览

动态(2)

非

非凡少年

2025-06-27 12:20

公开

from ㅤ

#语言 #文本处理 #HTML标签 #转义字符 #零宽空格

浏览:212点赞:0

非

非凡少年

2024-06-21 18:23

公开

#技术 #人工智能 #文本处理 #自然语言处理 #字符识别 #异常检测 #数据清洗

浏览:203点赞:0