データクレンジングの具体的な手順を解説|BtoBマーケで必須の作業を公開

ホワイトペーパー制作サービス

記事制作代行サービス

 

「1件の顧客に対して何度も同じメールが送られている」

「CRMやMAを活用しているもののマーケティングの精度が向上しない」

「マーケティングとセールスが持っている顧客情報が異なる」

こうしたお悩みの原因は「データの質」にあるかもしれない。

近年のマーケティングは、「データドリブンであること」が求められるが、前提として

データの質が最も重要だ。

そして、データの質を担保するために必要なのが「データクレンジング」である。

ここでは、データクレンジングの基礎知識や重要性、メリットやリスク、具体的な手順について解説する。

 

1.データクレンジングとは?名寄せとの決定的な違い

 

まず、データクレンジングの一般的な基礎知識について理解しておこう。

ここでは、混同されがちな「名寄せ」との違いも解説する。

 

1.1.データクレンジングとは

 

データクレンジングとは、一言で述べると「データの整形および適正化」のことだ。

具体的には、データの誤りや重複、欠損値、フォーマットの不統一などを検出し、修正または削除するプロセス全般を指す。

データクレンジングは、ビッグデータ活用が一般化した2010年代中盤から注目され始めた。

現在ではデータを扱うさまざまな領域で行われる。

重要性については後述するが、データクレンジングなしのデータ活用はあり得ないと言って良い。

 

マーケティングにおけるデータクレンジングの例

 

マーケティングにおいてデータクレンジングは下記のような業務に活用される

 

①顧客データベースの名寄せにより同じ顧客に対して何度も同じメールを送らないようにする

名称 電話番号 メールアドレス 重複判定
アイティベル 03-1234-5678 Info-itbell.com 同一
(株)アイティベル 03-1234-5678 Info-itbell.com 同一
(株)ABC 03-5678-9101 Abce.co.jp

 

②無効メールアドレスの削除

名称 電話番号 メールアドレス 判定
アイティベル 03-1234-5678 Itbell@gmail.com メールアドレス無効
(株)ABC 03-5678-9101 Abce.co.jp

 

③名前、住所、企業情報の表記ゆれや欠損値の補完

名称 電話番号 住所 メールアドレス
ITベル 03-1234-5678 東京都港区元赤坂 Info-itbell.com
(株)ABC 03-5678-9101 大阪府茨木市 Abce.co.jp
  • 名称:ITベル→表記揺れ
  • 住所:番地の欠損

このようにマーケティングでは、リード管理やナーチャリングプロセスに支障をきたすようなデータの不備に対して、データクレンジングを施す。

 

1.2.名寄せとデータクレンジングとの違い

 

データクレンジングとよく混同される言葉に「名寄せ」がある。

名寄せはデータクレンジングの一部であるものの、イコールではない。

名寄せは「重複データの統合によってユニーク化すること」を指す。

具体的には、顧客名称や住所、メールアドレスなどの情報から同一顧客を特定する作業だ。

前述の例でいえばAが名寄せに該当する。

BtoBでは「株」の表記位置や、本社・支社による住所の違いなどで、同一の顧客に関する情報を複数持ってしまうことがある。

こうしたデータに対して重複判定を施し、統一する作業が名寄せだ。

一方データクレンジングは、欠損地の補完や誤情報の修正など、名寄せも含めたデータにまつわる適正化の作業全般を指す。

 

2.データクレンジングの重要性、メリット

 

次に、データクレンジングの重要性やメリットを、マーケティングの視点から解説する。

 

2.1.データドリブンな施策に欠かせないから

 

マーケティングにおいて、データクレンジングはデータドリブンな施策の基盤である。

顧客分析の精度を上げるには、正確でクリーンなデータの保持が不可欠だからだ。

特にデジタルマーケティングでは、データの正確さがリード獲得からナーチャリング、クオリフィケーション、スコアリングの各段階に直接的な影響を与える

例えば、ナーチャリングの初期段階でメールアドレスの誤りや重複データが多いと、キャンペーンメールの到達率が低下し、リードが適切に育成されない。

また、クオリフィケーションで誤ったリードが選定され、最終的にはコンバージョン率の低下につながる。

さらにABM(アカウントベースドマーケティング)を実施する際にも同じことが言える。

ターゲットアカウントの情報が正確でないと、マーケティング活動が的外れになり、リソースが無駄になる可能性が高い。

データクレンジングが行われていない場合、マーケティング施策全般にわたり効果が著しく低下するリスクがある。

 

2.2.施策の効果が最大化される

 

データクレンジングを行うことで、マーケティングオートメーション(MA)の効果が最大化される。

ターゲットリストが正確であれば、MAの自動化による効率化が進む

クリーンなデータを基にしたターゲティングリストを活用すれば、メールキャンペーンでの到達率を向上させ、無駄なメールの送信を削減する。

顧客行動も正確に把握できるようになり、顧客セグメントの作成やリードスコアリングの精度が増すだろう。

また、購買履歴データの質が高ければ、リピート購入の確率が高い顧客に対してタイムリーに関連商品を提案することが可能になる。

アップセルやクロスセルのタイミングを正確に知ることができるため、顧客一人あたりの売上が向上する。

 

2.3.AI学習の基礎データになる

 

データクレンジングによってデータの構造化が促進される。

構造化データはAIにとって扱いやすく、データのパターン認識や予測分析の精度を高める。

データが正確かつ整然としている場合、AIは顧客行動の傾向をより迅速に分析し、精度の高い予測モデルを構築できる。

したがって、AIを活用するデータドリブンな施策においても、データクレンジングの重要性は極めて高い。

 

3.マーケティングでデータクレンジングを行わないことのリスク

 

とはいえ「データの修正や統一に多大な時間は割けない」という考えもあるだろう。

確かにデータクレンジングは、利益に直結するタスクではない。

しかし、データドリブンな環境においてデータの質を無視することは、非常にリスキーだ。

そこでデータクレンジングを行わない場合のリスクも把握しておこう。

 

3.1.統一後のデータの質が下がる

 

日本企業は、部門ごとにデータが分散管理される傾向が強い。

実際に顧客データはマーケティング部門だけでなく、営業やカスタマーサポート部門にも分散している。

しかし、これらのデータは「同一の内容」を表していたとしても「異なる表記」であることが多い。

フォーマットや表記ルールが異なるので、そのまま統合しても重複や無駄が含まれる「質の悪いデータ」にしかならないのだ。

特に日本語のデータでは、漢字の異字体や、ひらがな・カタカナの表記ゆれなどがデータ品質を低下させる要因が多い。

このようなデータをそのまま使用すると、顧客属性や購買行動を把握できなくなるだけでなく、MAやCRMなどの機能にも悪影響をおよぼす。

とくに後者は深刻だ。

質の悪いデータが大量に蓄積されていくと、後から正確な情報に辿り着こうにも膨大な労力を要する。

重複データや誤データの掘削作業は、非常に手間のかかる作業だけに、放置は厳禁である。

 

3.2.既存顧客からの信頼性が低下する

 

データクレンジングが行われないと、欠損値や重複値が含まれたままのデータを使用することになる。

その結果、同じ顧客に対して同じ内容のキャンペーンメールを複数回送ってしまう可能性が高くなる。

この事象は、我々が考える以上に顧客からの信頼を低下させる。

情報収集を行っている企業の多くは、さまざまなメールを日常的に受信している。

こうしたメールの中に突然、同一内容のメールが複数届いた場合を想像してみてほしい。

きっと顧客は「メルアドの管理すらできていないのかな」と不信感を募らせるだろう。

また、パーソナライズされた提案ができないことで、商機を失うリスクもある。

メールを多用する企業にとって、データクレンジングは決して無視できる作業ではないのだ。

 

3.3.LTV向上が阻害される

 

データクレンジングが行われていない場合、アップセルやクロスセルの対象顧客を正確に特定することが難しくなる。

その結果、顧客に対して最適な提案ができず、LTV(顧客生涯価値)の向上が阻害される

アップセルやクロスセルは、それまでの「文脈」、つまり顧客行動の把握が何より重要だ。

顧客行動はいくつものデータの集合体であり、普段からクリーンにしておかなくてはならない。

 

3.4.ROIの低下

 

データクレンジングが行われないと、マーケティング活動に無駄が発生しやすくなる。

具体的には「不必要なキャンペーンを実施する」「ターゲティングが不正確になることで効果が薄い施策を行う」といった状況に陥ってしまう。

当然のことながらマーケティング施策のROI(投資対効果)が低下し、リソースが無駄に消費される。

 

4.データクレンジングの具体的な手順

 

ここからは、データクレンジングの具体的な手順を紹介する。

データクレンジングの手順は下記4ステップだ。

  • クレンジングルールの決定
  • 対象データの確定
  • データ収集
  • データ整形作業(クレンジング作業)

特に難しい作業ではないが、どの作業も意外と手間がかかる。

手順をよく理解して、自動化を織り交ぜながら実施していこう。

 

4.1.クレンジングのルールを決定

 

最初のステップは、クレンジングルールの決定だ。

既存のデータに含まれるであろうパターンを推測し、そこから「やるべき作業」をリストアップする。

一般的なクレンジングのルールとしては、下記がある。

  • 欠損値の補完…データの「抜け」「漏れ」の特定と補完
  • 表記ゆれの修正…同一内容かつ異表記のデータをいずれかの表記に統一
  • 不正値の削除…本来入力されるべきではないデータや誤情報の削除
  • 名寄せ(ユニーク化)…データのある項目をキーとした重複データの削除および統一

おそらくこの4つのパターンで、クレンジング対象のデータはほぼ修正されるはずだ。

ただしこれだけではわかりにくいので、もう少し具体的なルールに落とし込んでいこう。

例えば下記のようなルールだ。

 

欠損値の補完
  • 市外局番が省略されている場合は補完
  • メールアドレスのドメイン部分の欠損補完
    (例: 「user@」→「user@example.com」)
  • 年または月日が欠損している場合、既知の情報から推定して補完
表記ゆれの修正
  • 番地表記で漢字とハイフンが混在している場合は、どちらかに統一
  • 半角と全角の混在を解消
  • 氏名におけるスペースの有無を統一
  • 氏名の漢字・ローマ字表記の不統一を修正
  • 電話番号でハイフンの有無を統一
不正値の削除
  • 存在しない日付や未来の日付の削除
    (例:「2023-02-30」→削除)
  • ドメイン部分が欠けている、もしくは存在しないドメインの削除
    (例:「user@invalid」→削除)
  • 数字の桁数が正しくない、日本国内ではないなど非現実的な電話番号の削除
    (例:「123-456-789」→削除)
  • 項目の属性に合致しないデータの削除
    (例:数値項目にカナ情報など)
名寄せ(ユニーク化)
  • 顧客ID: 同じ顧客に対する複数のレコードを統合。
    (例: ID「12345」のデータを統合し、重複を削除。)
  • 氏名と住所の統一: 同一人物とみなされる場合は、情報を統合。
    (例: 「山田 太郎」「Yamada Taro」を統一し、一つのレコードにする。)
  • 電話番号: 同じ電話番号が異なるレコードで使われている場合、それらを一つに統合。
  • メールアドレス: 同じメールアドレスを持つ複数のレコードを統合。
  • 法人名: 同一法人名が異なる表記で登録されている場合、それらを一つに統合。
    (例:「ABC Corp」と「ABC Corporation」を統一。)

 

4.2.対象データの確定

 

ルールが決まったら、実際にクレンジング対象とするデータを決めよう。

マーケティングに必要なデータとしては、

  • 企業情報
  • リード情報(担当者レベル)
  • 購入履歴
  • アンケート結果
  • 顧客の連絡先情報

などが含まれる。

これらのデータは、企業の各部門に分散していることが多い。

もし分散している場合は、各部署と連携しながらデータを確定していこう。

 

4.3.データ収集

 

さらに確定したデータをひとつの場所に集める。

収集する場所は、Excelシートや簡易なデータベース(DB)でも良いし、CRMのDBでも良いだろう。

後々のことを考えれば、最初からマーケティングの起点となるシステムに集めるべきだ。

しかし、「そもそもシステム内でデータを編集できない」「編集作業でミスが起こりえる」といった場合には、あらかじめ手元で修正してからアップロードしよう。

最近のCRMやMAは、外部データファイルの取り込みに対応しているものがほとんどなので、あまり心配する必要はないだろう。

 

4.4.データ整形作業(クレンジング作業)

 

データ収集が終わったら、実際のクレンジング作業に入る。

大体、以下のようにクレンジングが進むはずだ。

 

【クレンジング作業前】

顧客ID 会社名 住所 電話番号 氏名 生年月日 メールアドレス
12345 (株)サンプル会社 東京都渋谷区1-2-3 03 1234 5678 Yamada Taro 1990- user@
67890 株式会社テスト会社 大阪市北区梅田1-2-3 06-7890-1234 山田 太郎 1980-12-12 test@example.com
12345(重複) (株)サンプル会社 東京都渋谷区1丁目-2-3 03-1234-5678 やまだたろう 1990-01-01 user@example.com

 

【クレンジング作業後】

顧客ID 会社名 住所 電話番号 氏名 生年月日 メールアドレス
12345 株式会社サンプル会社 東京都渋谷区1丁目2番3号 03-1234-5678 山田 太郎 1990-01-01 user@example.com
67890 株式会社テスト会社 大阪市北区梅田1丁目2番3号 06-7890-1234 山田 太郎 1980-12-12 test@example.com
  • 欠損値の補完
    生年月日の欠損部分を補完(「1990-」→「1990-01-01」)
  • 表記ゆれの修正
    「(株)」を「株式会社」に統一し、住所の番地表記や氏名のローマ字表記を修正
    (「Yamada Taro」→「山田 太郎」)
  • 不正値の削除
    番地の表記ゆれ(ハイフンや漢字の混在)を統一
    (「1-2-3」→「1丁目2番3号」)
  • 名寄せ(ユニーク化)
    重複していた顧客ID「12345」のレコードを統一

 

4.5.専用ツールの活用も視野に

 

なお、最近のCRMやMAには、データクレンジング機能が内包されていることもあるので随時活用していこう。

もしこうした機能が利用できない場合は、下記のような専用ツールの導入も検討してみて欲しい。

 

OpenRefine

 

データクリーニングや変換を行うオープンソースのアプリケーで、データの重複や表記ゆれを自動的に検出・修正する機能を持つ。

 

Talend Data Preparation

 

ドロップ&ドラッグの直感的に操作が特徴。

日本国内でも多くの企業で利用されており、特にマーケティングデータの整備に向いている。

 

5.まとめ

 

ここでは、データクレンジングの基礎やマーケティングにおける重要性、実施しないことのリスク、実践方法などを紹介してきた。

BtoBマーケティングの精度をあげるには、根底にあるデータの質の担保が欠かせない。

データクレンジングは手作業による部分も多いが、リソースを投下する意義は十分にある。

CRMやMAにAI機能が統合されつつある今、データクレンジングによるデータの構造化は、ますます重要になるだろう。

専用ツールの活用を含め、効率的にデータクレンジングを実施していこう。

 

ホワイトペーパー制作サービス

記事制作代行サービス

Index