在导入或发布前执行单次文本清理

适用场景

顺手流水线:按文档顺序套用修复步骤,再进 CMS 摄取或文本 ETL。

要使用的工具

空行、去重、去空格、排序一体。

打开 文本清理 →

步骤

  1. 1列出操作顺序(trim、NFC、空行折叠)。
  2. 2若不可逆则在工具外保存原文。
  3. 3执行单次并通过随机 3 处抽查。
  4. 4记录参数以便 QA 复现。

示例

  • 导入遗留 Help Scout 文章。
  • 进 ML 模型前的客户评论数据集。

应避免

  • 顺序错误(先折叠再 trim 会留下孤立尾部)。
  • 代码与散文用同一管道。
  • 跑完后不做抽样。

相关工具

博客

文本工具 中的更多内容

所有任务指南 或前往 文本工具 专区.

常见问题

幂等?

目标为是;否则记录罕见的二次运行。

性能?

超过工具内存限制的文件要拆分。

所有任务指南 · 文本工具 工具 · 博客