国立研究開発法人 情報通信研究機構(NICT)は2020年8月21日、Twitterの利用状況や投稿内容から、Twitter利用者の社会性やメンタルヘルスなどのパーソナリティを推定することに成功したと発表した。投稿数などのネットワーク情報からは、社会性や人生の満足度が推定でき、単語情報(単語統計情報と単語使用情報を合わせたもの)からは、メンタルヘルスや飲酒喫煙などを推定できるという。
情報通信研究機構(NICT)は、SNSの1つであるTwitterの利用者を被験者として、Twitterの利用状況や投稿内容といった情報から、被験者が回答したパーソナリティに関する情報を推定できるかどうかを調査研究した。この結果、SNSの情報からパーソナリティを推定できることが分かったという(図1)。
例えば、投稿(ツイート)数や「いいね」をした人数など、Twitterの利用情報からは、外向性、共感性、自閉傾向など、社会性に関するパーソナリティの推定が可能であることが判明したという。
また、単語数や文字数などのなどの言語統計情報からは、不安傾向、うつ傾向、統合失調傾向などのメンタルヘルスや社会経済的地位、喫煙/飲酒に関係するパーソナリティが推定できることがわかった。例えば、1文の文字数のばらつき(文章の長さ、ばらつき)が統合失調症傾向の推定に寄与するという。
実験には、239人(男性156人、女性83人、平均年齢22.4歳)のTwitterユーザーが参加した。被験者は、24種類(下位区分52種類)のパーソナリティテストに回答した。この結果、52種類の下位区分のうち23種類のパーソナリティが、Twitterの利用状況や投稿内容から推定可能だった。
推定可能なパーソナリティに関する、実測値と推定値の相関係数は、0.25程度だった。この相関係数は、個人のパーソナリティを特定するには不十分だが、ある程度の人数の集団に適用して統計的な結果を得るには有効だとしている。
なお、実験では、各ユーザーのTwitter情報のうち、以下の情報のそれぞれから、どれくらいのパーソナリティを推定できるかを調べた。
- ネットワーク情報(ツイート数、リプライ数、リツイート数など15種類)
- 時間情報(時間、曜日、月あたりのツイートやリプライ数の平均、分散など)
- 言語統計情報(ツイートの単語数の平均、分散、1文の文字数の平均、分散、ポジティブ語とネガティブ語の相対頻度など)
- 使用単語情報(ツイートで用いられた単語の出現ベクトル)
パーソナリティテストで回答してもらった24種類(下位区分52種類)のパーソナリティは、以下のとおりである。
- メンタルヘルス
- 統合失調症傾向(3)、妄想症傾向(4)、強迫性障害傾向(6)、サイコパス傾向(2)、マキャベリアニズム傾向(1)、うつ病傾向1(1)、うつ病傾向2(1)、不安傾向(2)、ストレス(1)
- 行動経済
- 社会経済的地位(1)、リーダーシップ(1)、社会価値志向性(3)、リスク回避(1)、時間割引(1)
- 社会性
- 共感性(4)、自閉症傾向(5)
- 行動抑制/賦活
- 行動抑制(1)/行動賦活(3)
- Big5
- Big5(5)
- 知性
- 言語性IQ(1)、流動性IQ(1)
- 人生の満足度
- 幸福感(1)、自尊心(1)
- 飲酒喫煙
- 飲酒(1)、喫煙(1)