Quantifying Information Leaks in Outbound Web Traffic

Quantifying Information Leaks in Outbound Web Traffic, by Kevin Borders (Web Tap Security, Inc.), Atul Prakash (University of Michigan), IEEE Symposium on Security & Privacy 2009.

タイトルや Introduction から Webトラフィック上でのDLP (Data Leakage Prevention) の話なのかと思ったのだが、どうもそうではないらしい。前提としている脅威シナリオが最初に明確に書いてないのだが、どうやら、「ブラウザやClient上のスパイウェアが、Webトラフィックをチャネルとして利用して、外部に情報を漏洩させる可能性がある」というのが前提らしい。

ネットワークトラフィックの量は膨大なので、Sensitive dataを検出しようという試みはうまくいかない。かわりにこの論文では、実際に漏出している情報の量を定量的に評価し、制御する手法を提案する。

情報量を定量的に評価する手法は、HTTPがHTMLとJavaScriptとインタラクトするプロトコルに着目し、HTTPリクエストの期待されるコンテンツを推測する手法。実際のコンテンツと期待されるコンテンツの edit distanceが、流れている情報の量となる。

Webページをparseして、含まれているリンクを取り出す。たとえば、ここに含まれているリンクへのアクセスは予想の範囲内、といえる。
- ブラウザ環境をシミュレートしてリンクを抽出する
- HTML内のFormの名前と、HTTP Postのパラメータ名のマッチングを取る
- HTTP headerなどの固定情報は排除する
また、Request/Responseのタイミングを使った covert channel も推測

メリット：

情報量を知る既知の手法の一つは、gzipのような圧縮アルゴリズムを使って、繰り返し出現する文字列を圧縮してしまうプロトコル不可知な方法。しかし、提案手法のようにプロトコルのインタラクションを意識することで、より効率よく情報量を測れる。
提案手法は情報量をoverestimateすることはありうるが、underestimateはしないので、情報漏えいの上限を制御できる。
提案手法は完全に暗号化されたトラフィックでは使えない。