東芝デジタルエンジニアリング株式会社

個人情報ファイル検出ツール「すみずみ君」 特長

高速・高精度 PC 内すみずみまで重要・機密情報ファイル探す「すみずみ君」

個人情報ファイル検出ツール「すみずみ君」

個人情報ファイル検出ツール「すみずみ君」

個人情報ファイル検出ツール「すみずみ君」は、 PC やサーバ内の個人情報を含むファイルを、すみずみまで探すツールです。 マイナンバーにも対応した個人情報検出アルゴリズムにより高速・高精度で目的のキーワードを含むファイルを検出します。

これにより、企業や団体の情報資産の管理を強力にサポートするため、安心・安全に日常業務を行うことができます。

特長1. 検査精度が高い

「すみずみ君」は、顧客リスト、緊急連絡網などの名簿に類する個人情報を検出するアルゴリズムを搭載しています。 このアルゴリズムにより、個人情報に該当すると推定されるパターンを含む文書ファイルを、高い精度で検出することができます。

「すみずみ君」は、個人情報を検出するため、以下の標準辞書を提供しています。 これらの標準辞書を自由に組み合わせて検索を設定することができます。

標準辞書:

  • マイナンバー

  • 名字

    名字辞書では、明らかに名字ではない文字列は検知しません。

    明らかに名字ではない文字列の例:

    「山口支店」、「山口営業所」、「山口大学」、「山口病院」、「山口ビル」など

  • 名字 (カナ)

  • 名字 (ローマ字)

  • 住所

    住所辞書では、地名ではなく番地まで含まれる住所を検知します。

  • 電話番号

  • 電子メールアドレス

  • 生年月日

  • クレジットカード番号

  • 銀行口座番号

  • その他 - 文字列パターン、「機密」など任意のキーワード

特長2. 検査速度が速い

「すみずみ君」は、ファイル検査速度は非常に高速です。 また、ファイル検査の際の、検査項目数や検査条件にかかわらず、検査時間はほぼ変わりません。 このため、運用する PC 内のファイル数やデータ量にかかわらず、安定した運用が可能となります。

「すみずみ君」の検査速度が速い理由は 3 つあります。

理由 その1 - 高速検索エンジン SP-Filter

「すみずみ君」は、独自に開発した「高速検索エンジン SP-Filter」を搭載しています。 この SP-Filter により、検索式規模によらず高速照合を実現しています。

SP-Filter は、日本語対応の正規表現検索に対応した DFA 型の検索エンジンです。 以下の特長があります。

「高速検索エンジン SP-Filter」の特長:

  • 高性能:

    広く利用されている正規表現文字列照合ライブラリと比較して、数万キーワード規模で3万倍~20万倍の性能を実現。

  • スピードが低下しにくい:

    複雑な検査条件でも検査スピードが低下しにくい。

  • 柔軟性:

    お客様ニーズに応じた検査条件の柔軟なカスタマイズが可能。

DFA

Deterministic Finite Automaton (決定性有限オートマトン) の略。 ストリーム処理により高速化を実現しています。

理由 その2 - マイナンバーやクレジットカード番号のチェックデジット計算

マイナンバー、クレジットカード番号については検査前にチェックデジット計算を行っています。

そのため、検査開始後には、検査対象ファイルオープン後の数字列と照合することで高速にマイナンバー、クレジットカード番号を検出することができます。

理由 その3 - 「差分検査」による検査

「すみずみ君」はファイル検査に独自の検査機能である「差分検査」を使用します。 「差分検査」により検査時間を大幅に短縮できます。

「差分検査」は、ファイル検査の際、前回の検査結果一覧との比較を行い、新規作成、または、更新されたファイルのみを検査する機能です。 ファイル内容が更新されていない場合、検査結果は前回と同じであると判断して検査をスキップします。

「差分検査」は、多くのファイルをオープンしないでスキップするため、検査終了までの時間を大幅に短縮することができます。

特長3. 正規表現で任意の文字列を検出可能

「すみずみ君」は、正規表現による検索条件により任意の文字列を検出可能です。

他社製品の場合、キーワード辞書を正規表現で表現する機能を提供する製品は少なく、多くの製品はキーワード辞書に検索キーワードを大量に登録する方式で対応しています。

正規表現辞書の例 - 個人情報ファイル検出ツール「すみずみ君」

正規表現辞書の例

「すみずみ君」では、柔軟な正規表現による正規表現辞書の作成が可能です。 正規表現辞書は、図「正規表現辞書の例」に示すように、簡単に記述できるため、数多くのパターンのキーワードを登録する必要がありません。

検索条件に正規表現を使用することは、以下のような利点があります。

  • 検索条件の簡略化:

    • 検索用辞書の保守が簡単になります。

  • 検索速度の高速化:

    • 検索の際のキーワード比較が高速になるため、ファイル全体の検索時間が短縮されます。

「すみずみ君」では、以下のような正規表現の検索条件を組み合わせて設定できます。

正規表現の検索条件:

  • 近似的照合

  • 論理式 (AND / OR / NOT)

  • 近傍条件

  • 表記ゆれ

これらの検索条件の組み合わせにより、お客様ニーズに応じた柔軟な検索条件の設定とカスタマイズが可能です。

特長4. 柔軟なユーティリティ

検索条件を組み合わせる「辞書ユーティリティ」を活用することで、柔軟な検索ができます。 また、重要なファイルを管理しやすくする「リネームユーティリティ」を活用することで、ユーザーへの気づきや警告をすることが可能です。

辞書ユーティティ

辞書ユーティティ

「辞書ユーティティ」は検査で使用する辞書の選択や、固定キーワード、正規表現を使用してユーザー辞書を作成できるユーティリティです。

リネームユーティリティ

リネームユーティリティ

「リネームユーティリティ」は、「すみずみ君」の検査結果を基に検出ファイルのファイル名を個人情報管理ツールに従ったファイル名に変更できるユーティリティです。

集計ユーティリティ

集計ユーティリティ

「集計ユーティリティ」は「すみずみ君」の検査結果をサーバに集約し検査対象 PC 全体の検査結果およびその集計結果を確認できるユーティリティです。

お気軽にお問い合わせください。