[Hotmail] SmartScreen: 毎日 10 億件以上のニュースレターを自動的に判別

※本記事は Inside Windows Live Blog の抄訳です。

SmartScreen® は迷惑メール対策だけのテクノロジーではありません。最新版の Hotmail では、Microsoft SmartScreen を利用して毎日 10 億件以上のニュースレターを自動的に判別しています。ニュースレターは受信トレイに配信されるメール全体の 4 分の 1 以上を占めるため、ニュースレターを自動で分類できれば時間の大きな節約につながります。

この記事では、迷惑メールをブロックし、ユーザー様のグレーなメールの管理に役立てられるように、どのように SmartScreen を調整し迷惑メールだけでなく、いわゆるグレーなメールの一つであるニュースレターを判別したのかについて説明します。

                2006 年 Hotmail の受信トレイの内訳

001

迷惑メールが受信トレイ内のメールの 30% を占めていた頃は、敵である迷惑メールは簡単に判別できたので、私たちがすべきことは明白でした。そして SmartScreen に多大な投資を行った結果、迷惑メールは
3% 以下というかなり低い水準にまで減少しました。

迷惑メールをある程度管理できるようになったので、受信トレイ内の他のメールについても調査を始めました。すると、驚くべき事実が明らかになりました。

                  2012 年 Hotmail の受信トレイの内訳

002

個人間でやりとりされたメールは簡単に判別することができ、また、スパム フィルターをすり抜けた迷惑メールがあったこともわかりました。残りの大半は、私たちが “グレーなメール” と呼んでいるものでした。グレーなメールに対処するにあたって根本的に重要なのは、受信するメールと拒否するメールを分けることではありませんでした。誰からも歓迎されない迷惑メールとは違い、グレーなメールにはすべての人に当てはまる一般的な対処方法が存在しないのです。

そこで私たちは、グレーなメールに対する管理機能を提供することが最善の策であると考え、一括処理、
自動クリーンアップのスケジュール設定、受信トレイの特別な表示といった強力な新機能を提供することで、ユーザー自身がグレーなメールを管理できるようにしました。

しかしこうした優れた機能も、最新の状態に保つためにはメンテナンスが必要であり、管理対象のメールはユーザー様自身が判別しなければなりません。ユーザー様の手間を最小限に抑えるべく、私たちはさらなる機能強化に努めました。

グレーなメールを自動的に分類

基本的な考え方としては、ユーザー様が確認する前にどのようなタイプのメールなのかを識別し、必要に応じて適切な対応をとるということです。特に目新しい概念ではありません。
SmartScreen はメールを分類した後、それを迷惑メールまたは悪意のあるメールとしてマークし、対処方法をメール配信システムに指示します。

たとえば、SmartScreen はメールの危険度に応じて以下の処理を実行します。

  • 不明な送信者からのメールは受信トレイに配信し、メール全体を表示するかどうかは
    ユーザー様の判断に委ねる
    [1]
  • メールを迷惑メールとしてマークし、[迷惑メール] フォルダーに配信する
  • 危険なコードを含むメールや既知の悪意のある送信者からのメールの受信を拒否する


[1] メモ: 次期リリースで更に改善する予定です。Hotmail ではユーザー様の負担を軽減するために、
近くドメインの評価を利用して、注意すべきメールが判別されるようにします。


迷惑メールと格闘する中で、私たちは多くのことを学びました。インフラも整ったので、次は学んだ教訓を活かし、グレーなメールを管理するためのツールを新たに導入することにしました。グレーなメールを自動的に分類できれば、メールの一括処理、自動クリーンアップのスケジュール設定といった新機能の効果がさらに向上します。後は、何から手を付けるかを決めるだけでした。

          グレーなメールの内訳

003

受信トレイ内の 82% をも占めるグレーなメールを調査すると、すぐにわかったことがありました。
それは、ここ数年ソーシャル ネットワーキングがデジタル ライフの中心となっているのを受けて、Facebook や Twitter といった人気サイトからの通知メールが受信トレイの大半を占めていたことです。
幸い、この種の主な送信元は一般に広く知られており、変更も頻繁ではなく検出が簡単なので、前回のリリースでは [ソーシャル ネットワーク] に絞ったメールの表示を導入することにしました。

一方で、ソーシャル ネットワークの通知メールが小さく見えてしまうぐらい大きなボリュームを占めるメールの区分があることも把握していました。場合によっては受信トレイの 50% にまで達していたのです。

平均的なユーザーの受信トレイには、販売業者、クラブ、地域、学校からのメールや、ショッピングやイベント関連のクーポン、セール情報、通知メールが毎日大量に配信されています。
私たちはこの種のグレーなメールを “ニュースレター” と呼んでいます。

送信元のメール アドレスや形式が常に同じで内容もそれほど変わらない Facebook や Twitter の通知メールとは異なり、ニュースレターは多種多様です。誰でも送信することができ、形式や内容も自由です。

そのためニュースレターには、ソーシャル ネットワークとは異なるアプローチが必要でした。多種多様な点は他のグレーなメールも同様であるため、ニュースレターに限定されない機能の開発を目指しました。

ニュースレター フィルターを作成する

Hotmail でニュースレターを判別するためにまず行ったのは、ニュースレターの特性をリストアップし、受信メールからニュースレターを抽出するための簡単なソフトウェアを作成することでした。このリストを元に、すべてのメールの中からニュースレターを判別します。リストには、1) List-Unsubscribe ヘッダーが存在するかどうか、2) 送信元アドレス、3) ユーザー様に表示する内容も記載されています。

また、ニュースレターとは何かを明確に定義し、約 10,000 件のメールを “ニュースレター” または “非ニュースレター” に分類した判定基準を作成しました。この判定基準は、ニュースレター フィルターのテストとして機能します。ニュースレターを正しく判別できるかどうかによって、フィルターの精度が決まります。

さらに “機械学習” という手法を使用し、判定基準のニュースレターのほとんどを安定して判別できるようになるまでモデルを改善し調整するシステムを構築しました。判定基準はまったく無作為に抽出されたサンプルなので、フィルターのパフォーマンスはほぼ現実に即していると言えます。判定基準に含まれるニュースレターの大半を正しく判別できるようになったため、2011 年 9 月には、この機能を社内にパイロット導入しました。

社内パイロットを実施

社内パイロットとは、自社従業員の実際のメール アカウントを使用して新しいソフトウェアのテストを行うことであり、フィルターの問題点を発見し、修正するうえで非常に重要なプロセスでした。社内パイロットの対象ユーザーには、ニュースレターを見逃したり正しく判別できなかった場合に報告を行うための手段を提供しました。これは迷惑メールがフィルターをすり抜けた場合に行ってもらった方法と同じです。また失敗の分析には数週間を費やし、既知の問題が解決するまで調整を重ねました。

たとえば早期に見つかった問題として、金融サービス業者にはすべてのメールを同じドメインから送信する傾向があり、ニュースレターではないが非常にそれに近い定型的な文章を多用するということがありました。
銀行の取引明細などはむやみに整理するよりも、ニュースレター フィルターが無視するように調整した方が無難であると判断しました。

そのしくみ

一般に迷惑メールは、高級腕時計のセール情報、低金利ローン、医薬品など、扱う対象が無差別で、細かい点を除いてほとんど同じ内容が大量に送信されます。一方でグレーなメールの場合は、ユーザー様のオンライン アクティビティ状況によってある程度決まった種類のメールが貯まっていくため、受信トレイの中身はユーザー様によって千差万別です。

私たちは平均的なユーザーの受信トレイに適したニュースレター フィルターを設計しました。
これでほとんどの場合、ニュースレターが正しく判別されます。目標を低く設定したわけではありません。
データを見ると、ニュースレターの多くは平日に配信され、毎日
15 億件のニュースレターがユーザー様の元に届いています。これは我々のサーバーに配信されるすべての電子メールの約半数に相当します。また、平均的なユーザーの受信トレイのニュースレターの 73% に相当します (受信トレイ内の電子メール全体の 36%)。
つまり、メールをニュースレターと判別すれば 97% の割合で正しいことになります。

              ニュースレターの判別結果

004

判別が正確であればあるほど、メールのフィルタリングや削除といったメールの整理の時間が短く済み、
中身を読んだり返事を書いたりすることにもっと時間を割けるようになります。

Hotmail のカテゴリ機能を使えば、メールのカテゴリを設定/設定解除できます (“ニュースレター” など)。
これを元にニュースレター フィルターが学習して、誤動作を修正し、新しいニュースレターにも対応できるようになります。ニュースレターの処理ルールは、古いニュースレターだけでなくルール修正後に配信された新しいニュースレターにも適用されます。SmartScreen の最大の利点は、ニュースレターに対するユーザー様の処理方法を学習し、フィルターの精度が高められる点です。
これはすべてのユーザーにとってメリットがあります。

今後の対応

このニュースレター フィルターは、既にすべてのユーザー様にご利用いただけます。今後はこの機能を最大限に活用できるよう、新しいカテゴリや機能を継続的に追加していく予定です。また、メールの領収書や銀行明細などをより効果的に表示したり管理するための方法についても、引き続き検討しています。
ニュースレター フィルターが皆様のグレーなメール対策のお役に立てれば幸いです。
この件について、ぜひ皆様のご意見をお寄せください。今後も Hotmail をよろしくお願い申し上げます。

Dick Craddock, Group Program Manager Hotmail

関連情報

, ,

%d人のブロガーが「いいね」をつけました。