信頼性(TW)グループでは,ツイート,フェイクニュース,フィッシングなど,様々な種類のデータを利用して,Webでの信頼性,信頼性,説明可能性の多様な分析に取り組んでいます.具体的には,フェイクニュースの検出,信頼性の高いWebサイトの検出とその説明可能性,フィッシングの検出,記事の信頼性,感情分析,IoTデバイスの異常検出など,幅広い研究テーマを実施しています.以下に,現在のTWグループの研究テーマの概要図を示します.
これまで,ウェブ上のリンクやコンテンツの分析,ツイートデータでのコンテキスト分析,記事の信頼性分析など,ウェブから抽出した情報を使用して,様々な調査を行ってきました.調査の詳細な説明を以下の図に示します.
研究紹介
以下では,公開された研究内容(研究論文や卒業論文を含む)について説明します.
フィッシングURL検出(Phishing URL Detection)
フィッシングとは,フィッシング詐欺師がユーザーを誘惑して機密情報を盗み出す個人情報の盗難の一種です.様々な技術を用いたフィッシング検出メカニズムが開発されています.私たちの仮説は,フィッシング詐欺師はWebページ内の情報をできるだけ少なくして偽のWebサイトを作成するため,Webページのコンテンツを分析してコンテンツおよび視覚的な類似性に基づく検出を行うことが困難になるというものです.この課題を解決するために,URL(Uniform Resource Locator)を使ったフィッシングの検出に焦点を当てています.
1. 分裂ベースフィッシングURL検出(Segmentation-based Phishing URL Detection)
URLから抽出された情報は,フィッシングの検出に不可欠な重要で意味のあるパターンを示している可能性があります.URLベースのフィッシング検出の精度を高めるには,URLを正しく分割するための正確な単語分割手法が必要です.しかし,自然言語処理(NLP)で使用される従来の単語分割手法とは対照的に,URLの分割には細心の注意が必要です.というのも,意味のないデータを意味のあるデータに変換するプロセスであるトークン化は,NLPのように簡単に適用できるものではないからです.本研究では,URLセグメンテーションに着目し,文字レベルと単語レベルのセグメンテーションを同時に採用することに加えて,BertのTokenizerとWord Segment Tokenizerを組み合わせた新しいトークン化手法「URL-Tokenizer」を提案しています.
2. DomainとPathの特徴を使用するフィッシングURL検出
(Phishing URL Detection using Information-rich Domain and Path Features)
生のURLから直接抽出された特徴量を,単語や文字などの情報量が豊富な特徴量と定義し,整数にエンコードされたベクトル表現に変換します.簡単に言うと,URLテキストから単語や文字を抽出し,それらを特徴量そのものとみなします.このような特徴量は,手動で生成された特徴量のように検出率にリスクを与えることはありません.また,このような特徴量は,有用な情報(英数字や意味のある単語など)を含んでいるため,情報が豊富な特徴量として定義しています.
本研究では,手動で生成された特徴量のボトルネックを克服することを目指しています.
固定された特徴量では,フィッシング詐欺師はURLの構造を少し変えるだけで回避することができ,フィーチャーエンジニアリングの専門家の知識だけでなく,フィッシング詐欺師が簡単に騙せないようにするための十分な耐久性が必要となります.そこで,生のURLから意味のある単語を抽出することにより,情報量が豊富な特徴量を対象としました.
本研究では,手動で生成された特徴量のボトルネックを克服することを目指しています.
固定された特徴量では,フィッシング詐欺師はURLの構造を少し変えるだけで回避することができ,フィーチャーエンジニアリングの専門家の知識だけでなく,フィッシング詐欺師が簡単に騙せないようにするための十分な耐久性が必要となります.そこで,生のURLから意味のある単語を抽出することにより,情報量が豊富な特徴量を対象としました.
3. 非英数字のエントロピーを使用するフィッシングURL検出
(URL-based Phishing Detection using the Entropy of Non-Alphanumeric Characters)
フィッシング詐欺師は以下のような非英数字(NAN)文字を使用して偽のURLを作成する傾向があるため,NAN文字はフィッシングの検出に役立ちます.
1. 不要な余分なドット
2. 全く別のドメインにリダイレクトするための“//”
3. 似たようなWebサイトを装うドメイン内の“-”
4. 不要な記号
これまでの研究では,“-”,“//”,“_”,“.”などの特定の特殊文字が各URLに含まれる頻度も抽出してきました.しかし,私たちはURL内のNAN文字の頻度を直接使用する代わりに,フィッシングサイトと正しいWebサイト間のこれらの特殊文字の分布を測定するためのNAN文字のエントロピーという新しい特徴量を提案します.本研究の目的は,フィッシングサイトのWebページに利用できる情報がほとんど,あるいは全くない場合に,URLベースのフィッシング検出に有用な新たな特徴量を作ることです.
1. 不要な余分なドット
2. 全く別のドメインにリダイレクトするための“//”
3. 似たようなWebサイトを装うドメイン内の“-”
4. 不要な記号
これまでの研究では,“-”,“//”,“_”,“.”などの特定の特殊文字が各URLに含まれる頻度も抽出してきました.しかし,私たちはURL内のNAN文字の頻度を直接使用する代わりに,フィッシングサイトと正しいWebサイト間のこれらの特殊文字の分布を測定するためのNAN文字のエントロピーという新しい特徴量を提案します.本研究の目的は,フィッシングサイトのWebページに利用できる情報がほとんど,あるいは全くない場合に,URLベースのフィッシング検出に有用な新たな特徴量を作ることです.
ソーシャルコンテキスト特徴を利用するフェイクニュース検出
(Systematic Investigation of Social Context Features for Fake News Detection)
現在の世界では,世界のニュースが今までの時代ではあり得ないほど簡単に入手することができ,ほとんどすべての人がソーシャルメディアを使ってコミュニケーションをとっています.これにより,悪意のある人々がフェイクニュースを広めることが可能となっています.ウェブ上の誤った情報は,様々な形で人々に害を及ぼす可能性があるため,それを見極めることが重要です.
ニュースの内容だけを見て信頼できるかどうかを判断するのではなく,社会的文脈の特徴もフェイクニュースの検出に利用できます.感情分析,ツイートのTF-IDF,ツイートの心理言語学的特徴(Empath),ユーザーのフォロワー数,ユーザーのステータス数などの特徴を利用します.これらの特徴を用いて,機械学習の分類器を訓練し,ツイートの信頼性を判断します.
ニュースの内容だけを見て信頼できるかどうかを判断するのではなく,社会的文脈の特徴もフェイクニュースの検出に利用できます.感情分析,ツイートのTF-IDF,ツイートの心理言語学的特徴(Empath),ユーザーのフォロワー数,ユーザーのステータス数などの特徴を利用します.これらの特徴を用いて,機械学習の分類器を訓練し,ツイートの信頼性を判断します.
Webページのユーザビリティとパフォーマンスに注目した信頼性評価手法の提案
(Unreliable Website Detection using Page Utility and Performance Features)
より多くの人々が日々のニュースや情報をインターネットに頼るようになるにつれ,信頼性の低いWebサイトを検出する必要性が高まっています.これまでの研究では,言語的特徴量やソーシャル情報の特徴量に注目してこの問題に取り組んできましたが,私たちは,問題となっているウェブページのパフォーマンスやユーザビリティに着目した新たな特徴量を提案します.
Google Lighthouse( https://developers.google.com/web/tools/lighthouse?hl=es )は、Googleが開発したウェブページの品質を向上させるための,オープンソースの自動化ツールです.ウェブページのパフォーマンスとユーザビリティを,Performance,Accessibility,Best Practice,Search Engine Optimization (SEO),Progressive Web App (PWA)の5つの観点から測定するメトリクスとスコアを得ることができます.
Google Lighthouse( https://developers.google.com/web/tools/lighthouse?hl=es )は、Googleが開発したウェブページの品質を向上させるための,オープンソースの自動化ツールです.ウェブページのパフォーマンスとユーザビリティを,Performance,Accessibility,Best Practice,Search Engine Optimization (SEO),Progressive Web App (PWA)の5つの観点から測定するメトリクスとスコアを得ることができます.
文体変化と文体類似度を用いた文章の執筆者数推定
(Estimation of Numbers of Authors by Detecting Similar Writing Style)
近年,フェイクニュースと呼ばれる虚偽の情報を含んだニュースが問題となっており,フェイクニュースは事実であるニュースより早く広く拡散されることが明らかになっている.そのため,短時間で自動的に実行できる,信頼性判定システムが求められている.
記事の執筆や編集に関わった人数が,その記事の内容の信頼性や品質を反映していると考えられ,執筆者数は有用な評価指標と言える.執筆者数を信頼性判定の評価指標として用いるためには,文章から執筆者数を推定する必要がある.
本研究では、品詞n-gramの出現頻度に基づく文体の類似度を用いて文章の文体の変化を検出し執筆者数を推定する手法を提案した.
記事の執筆や編集に関わった人数が,その記事の内容の信頼性や品質を反映していると考えられ,執筆者数は有用な評価指標と言える.執筆者数を信頼性判定の評価指標として用いるためには,文章から執筆者数を推定する必要がある.
本研究では、品詞n-gramの出現頻度に基づく文体の類似度を用いて文章の文体の変化を検出し執筆者数を推定する手法を提案した.