标签: 文本处理

8 个内容

笔记(6)

OpenAI大型语言模型使用tokens处理文本,tokens为文本中常见字符序列。模型通过学习tokens间统计关系,擅长预测序列中的下一个token。该工具帮助理解分词机制。

Elliot Yang·
14 浏览

Unicode字符类正则表达式`[\\pP\\pS\\pZ]`用于匹配标点符号(\pP)、符号(\pS)和分隔符(\pZ)。常用于文本清理、数据预处理、格式验证和分词处理,可匹配中英文标点、数学符号、货币符号及空格等,适用于处理多语言文本中的非字母数字字符。

Elliot Yang·
336 浏览

本文全面介绍了 `grep` 命令的实用技巧,涵盖基础搜索、正则表达式、文件目录操作、上下文显示、计数统计、反向搜索等功能。通过丰富的实例,展示了 `grep` 在日志分析、系统管理、开发调试及网络安全等场景中的应用,并提供了高级技巧和性能优化建议。

Elliot Yang·
96 浏览

深入解析Linux运维,涵盖文件操作(`ls`, `grep`, `awk`),系统管理(进程、用户、时钟),网络调试(代理协议),命令原理(`which` vs `command`),以及eBPF、exa/jq/ripgrep等前沿工具和安全审计最佳实践。

Elliot Yang·
116 浏览

本文概述了字符编码从ASCII到UTF-8的演进。ASCII虽是基础,但扩展性不足;UTF-8以其兼容性、空间效率和容错性成为统一方案。文章还探讨了UTF-8的技术争议、工程实践、行业趋势及开发建议,强调了编码在构建无国界信息桥梁中的重要性。

Elliot Yang·
108 浏览

本文档记录了常用的 Linux 命令。主要内容包括:文件大小查看(ll 命令参数),grep 搜索空格字符串的转义方法,以及强大的 awk 命令的使用,包括语法、选项、内置变量和常见示例(如提取特定行、字段等)。此外,还介绍了端口占用查询、mkdir -p、用户删除、用户查看、时间获取、which 和 command -v 的区别,以及 curl 使用代理的方法。

Elliot Yang·
93 浏览

动态(2)

E
Elliot Yang
公开

from

浏览:172点赞:0