
ブラジルのミナス・ジェライス連邦大学(UFMG)の研究チームは、Discordの公開サーバ上でのチャットメッセージを対象とした、これまでで最大規模となるデータセット「Discord Unveiled」を公開しました。このデータセットは、2015年のDiscord誕生から2024年末までの約10年間にわたり、3,167の公開サーバで収集された20億件超のメッセージを含みます。対象ユーザー数は約473万人に及びます。
目次
研究の概要
SNSデータを活用した社会分析は広く行われてきましたが、FacebookやTwitter(現X)など大手プラットフォームは近年、外部からのデータ取得を制限しています。これにより、研究者や企業によるユーザー行動分析、コンテンツ流通分析の難易度が高まっています。
一方、DiscordはAPIを通じて公開サーバのデータ取得を許可しており、今回の研究ではその特性を活かして、大規模かつ倫理的に整備されたデータセットが構築されました。
データセットの構成と特徴
-
収集対象:Discordの「Server Discovery」機能に掲載されている公開サーバ(総数の10%をランダム抽出)
-
収録期間:2015年5月13日〜2024年12月17日
-
メッセージ数:2,052,206,308件(うち約17%がBotからの投稿)
-
ユーザー数:4,735,057人
-
サーバ数:3,167件
-
言語分布:英語(米国)が最多(1,705サーバ)、次いでスペイン語、フランス語、ポルトガル語など
データはJSON形式で提供されており、各サーバごとのファイルに分割。メッセージはチャンネル単位で時系列に整理されており、自然言語処理やソーシャルネットワーク分析に適した構造となっています。
匿名化と倫理面の配慮
Discord Unveiledは、GDPRなどのプライバシー法に配慮し、すべてのユーザー名やIDはハッシュ化・匿名化処理が施されています。また、データ収集はすべて公開サーバかつAPI経由で行われており、プラットフォームの規約に準拠しています。
分析から見えた主な傾向
Botの存在感
全メッセージのうち約17%がBotによる投稿。特に「MEE6」「Dyno」「Mudae」「Pokétwo」などが存在感を示しており、Botはモデレーションや娯楽機能の中核を担っています。
言語と文化の多様性
英語圏以外にも、スペイン語、フランス語、ポルトガル語、ロシア語などの利用も多く、グローバルな利用実態が浮かび上がります。
サーバの関心テーマ
最も頻出するキーワードは「gaming」(15.3%)、次いで「youtube」「minecraft」「anime」「roleplay」など。エンタメ系だけでなく、アート、音楽、教育、メンタルヘルス、政治といった幅広い話題が含まれており、Discordの多様性が反映されています。
想定される活用分野
このデータセットは、以下のような研究・実務分野での活用が期待されます。
分野 | 研究・活用テーマ |
---|---|
社会科学・メディア分析 | 世論形成、情報流通、誤情報拡散の検証 |
NLP・AI開発 | 会話生成、感情分析、トピック分類、毒性検知 |
モデレーション研究 | 分散型モデレーションの実態分析と比較 |
メンタルヘルス | 若年層の心理傾向や支援行動の検出 |
政治・選挙分析 | コミュニティ内の政治的傾向や言論形成の解析 |
特に、中央集権型のFacebookやXとは異なり、Discordはサーバごとにルールや文化が異なる**「分散型コミュニティ」**であるため、多様な統治・参加形態を横断的に分析できる点が大きな特長です。
Discordの悪用の実例:「Spy.pet」に見る監視技術のリスクと脅威
今回の「Discord Unveiled」が研究目的で収集・匿名化された倫理的なデータセットである一方、これとは対照的に不正に近い形でDiscord上のチャットを収集・公開する事例として、「Spy.pet」というサイトの存在が懸念されています。
「Spy.pet」は2023年11月頃から活動を開始し、Discordユーザーに同意を得ずにチャットデータを収集・検索可能とするスクレイピングサイトです。2024年4月に危険性が指摘され一時閉鎖されましたが、2024年6月後半に復活。復活後は、「53億件以上のチャットデータ」と「4億人超のユーザー情報」を保持していると主張しています。
このサイトでは、Discord上のプロフィール、ニックネーム、連携アカウント情報(SteamやGitHubなど)、参加サーバ、公開メッセージ、過去のチャット内容などが、仮想通貨によるクレジット購入を通じて検索できるようになっていました。
さらに、閉鎖前には削除依頼をすると「本気かよ?」と嘲笑するインターネットミームが表示されるなど、悪意性を感じさせる設計も問題視されました。
復活後には「オプトアウト(追跡拒否)」機能が追加されたものの、実際にはIDやユーザー名が「XXXXXXXXX」に置換されるだけで、データ自体は削除されないという不完全な対応にとどまっています。これは、EUのGDPR(一般データ保護規則)違反の可能性も指摘されています。
こうした事例は、DiscordのAPIや構造が持つ“可視化性”が、善意の研究だけでなく、監視ビジネスや個人情報の侵害にも利用され得ることを示しており、情報システム部門としても無視できないリスクです。