インポートまたは公開前に一回だけテキスト清掃を走らせる

該当する場合

ついでパイプライン。CMS取り込みやテキストETLの前に手順を文書化した修正を順に適用。

使うツール

空行・重複・空白・並べ替えを一括処理。

テキストクリーン を開く →

手順

  1. 1操作順を列挙(trim、NFC、空行圧縮)。
  2. 2不可逆ならツール外に生を保存。
  3. 3一回実行しランダムに3箇所スポットチェック。
  4. 4QA再現のためパラメータをログ。

  • レガシーHelp Scout記事のインポート。
  • MLモデル前の顧客コメントデータセット。

避けること

  • 順序ミス(trim前に折りたたむと末尾が残る)。
  • コードと散文に同じパイプライン。
  • パス後のサンプリングなし。

関連ツール

ブログで

テキストツール のその他

すべてのタスクガイド または次の テキストツール ハブ.

よくある質問

べき等?

目標は可。稀な二重実行は文書化。

性能?

ツールのメモリ上限を超えるファイルは分割。

すべてのタスクガイド · テキストツール のツール · ブログ