在导入或发布前执行单次文本清理
适用场景
顺手流水线:按文档顺序套用修复步骤,再进 CMS 摄取或文本 ETL。
要使用的工具
空行、去重、去空格、排序一体。
打开 文本清理 →步骤
- 1列出操作顺序(trim、NFC、空行折叠)。
- 2若不可逆则在工具外保存原文。
- 3执行单次并通过随机 3 处抽查。
- 4记录参数以便 QA 复现。
示例
- 导入遗留 Help Scout 文章。
- 进 ML 模型前的客户评论数据集。
应避免
- 顺序错误(先折叠再 trim 会留下孤立尾部)。
- 代码与散文用同一管道。
- 跑完后不做抽样。
相关工具
博客
文本工具 中的更多内容
常见问题
幂等?
目标为是;否则记录罕见的二次运行。
性能?
超过工具内存限制的文件要拆分。