ニュース

Google、迷惑メールやスパム対策を進化させる「RETVec」を開発

GMailで実装したRETVecスパムフィルタリングの性能

 Googleは、GmailやYouTube、Google Playにおいて迷惑メール、フィッシング攻撃、不適切なコメント、詐欺などの有害コンテンツをフィルタリングしているが、このほどフィルタリング性能を大幅に向上させる技術「RETVec」を開発し、社内でテスト評価したところ、かなりの効果があったとし、その結果報告した。なおRETVecはオープンソースにてGitHubで公開されている。

 悪意のある攻撃者は、テキストに細工を施すことでフィルタリングを回避しようとしているため、単純な機械学習モデルで分類するのが困難である。たとえば、形状が似ている文字(単純な例で言えば0(ゼロ)とO(オー)だが、言語を跨いだ利用もある)、不可視文字、キーワードスタッフィングといった手法だ。

 RETVecは斬新で非常にコンパクトなキャラクターエンコーダ、増強主導のトレーニング手法、距離学習を組み合わせることで、フィルタリング性能を大幅に改善。テキストの前処理を行なうことなく、あらゆる言語、UTF-8文字セットでも仕様できる。

 また、コンパクトで高速処理が可能なため、大規模アプリケーションやオンデバイスでも利用できるといい、公開しているものはネイティブでTensorFlow Text実装となっており、シームレスにTFLiteに変換してエッジデバイスに実装できる。また、Webアプリケーション向けにTensorflowJSレイヤーも提供している。

RETVecの仕組み
ゼロからトレーニングされたテキスト分類モデルのランダムタイポに対する耐性