Googleがインフルエンザの流行を予測したGoogle Flu Trends

Googleがインフルエンザの流行を予測する取り組みは、Google Flu Trends(GFT)として知られています。GFTは、ウェブ検索データを使用してインフルエンザの発症率を予測し、公衆衛生機関にとって有用な情報を提供する試みでした。

このプロジェクトは、2008年にGoogle.org(Googleの非営利部門)によって開始されました。基本的なアイデアは、Google検索データにはインフルエンザの症状に関するキーワード(例: “風邪の症状”、”発熱”、”咳”など)が含まれており、これらのデータを分析することで、インフルエンザの流行をリアルタイムで追跡できるというものでした。

Google Flu Trendsは、インフルエンザの発症率を予測するために、以下のステップを組み合わせて利用しました:

  1. インフルエンザの発症に関連するキーワードを特定する。
  2. これらのキーワードのGoogle検索の頻度を追跡し、時間の経過に応じて変動するパターンを把握する。
  3. インフルエンザの流行とキーワードの頻度変動の相関を分析し、予測モデルを構築する。

初期において、Google Flu Trendsはインフルエンザの発症率を予測するのに成功し、公衆衛生機関に有益な情報を提供しました。しかし、後にいくつかの課題が浮上し、精度の低下が報告されました。特に、GFTはインフルエンザの発症を過大評価する傾向があったため、正確な予測が難しいことが示されました。

その後、Googleはアルゴリズムの改善に取り組み、GFTを修正しましたが、このプロジェクトはその後終了し、予測モデルは他のアプローチやデータソースによって代替されました。インフルエンザの流行を予測するためには、より多くの要因やデータソースを考慮することが必要であることが示された事例として、GFTの取り組みは議論されています。

 

そうした記事でも強調されていたように、関連データを100%取得したという確信がない限り、そして100%取得できるような限られた状況でない限り、大規模なデータセットは、データ分析を何十年にもわたって悩ませてきた落とし穴に苦しめられるだろう。それはサンプルのエラーとサンプルの偏りの問題という落とし穴だ。

大規模なデータセットから分かることをそのまま予測に用いると、こうした問題に足元をすくわれがちだ。Twitterからすべてのツイートを集めれば、Twitterユーザーの間に広がるムードは分かるが、その国のムードが分かるわけではない。これと同じような制約の影響を受けたのが、スマートフォンアプリの「Boston Street Bump」だ。このアプリは、自動車がボストン市内の通りを走行する際の大きな振動を検出することによって、舗装面の穴の位置を記録するものだ。このアプリが生成するデータは、舗装面の穴を表示した地図の作成のために収集されてきたが、その地図では、スマートフォンを所有する裕福な人が走行することの多い地域が優先されることになる。

https://japan.zdnet.com/article/35047879/

 

 残念ながら、GFTはそれほど有効ではなかった。問題の最初の兆しは2009年、GFTの立ち上げ後間もない頃に生じた。豚インフルエンザの大流行をまったく予測できなかったのだ。そして2013年2月に『ネイチャー』誌で発表された報告によれば、GFTは2012年の年末に起きたインフルエンザの流行を実際よりも50%過大に予測した。さらに2014年の3月、GFTの開始以来最も不都合な検証結果が発表された。ハーバード大学の研究チームが『サイエンス』誌に寄稿した調査結果によれば、GFTは過去108週のうち100週において、インフルエンザの流行率を過大評価していたのだ(記事の基となる論文の英文PDFはこちら)。2011年8月から誤った予測を出し続けていたという。同記事はさらに、もっと単純な予測モデル――近年の気温データに基づく今後の気温予測と同じ程度に単純な方法――のほうが、GFTよりも正確にインフルエンザの流行を予測できたのではないかと指摘している。

要するに、ビッグデータなどなくても、Googleインフルトレンドよりよい結果を出せるのだ。何とも痛い話である。

ビッグデータの価値についての議論では、データの量が論点になることが多い。しかし、GFTからもはっきりと見て取れるように、データ量だけが増えても分析の質は上がらない。莫大なデータセットがあっても、その有効性は保証されないのだ。しかし量ばかりを重視する間違った前提は、ビッグデータの取り組みやその結果を正当化するのにしばしば使われている。「量こそすべてであり、よいデータを意味する」という根拠に基づく意見を、私はデータ・アナリストたちから頻繁に聞かされる。いわく、「検索市場でのグーグルのシェアは80%だから、他の検索エンジンの重要性は低く、無視してもいい」、あるいは「フェイスブックの会員数は10億人以上だから、実質的に“すべての人々”と言ってもいい」などだ。

https://dhbr.diamond.jp/articles/-/2545

 

Google Flu Trends(GFT)の事例から、ビッグデータとその解析に関するいくつかの弱点や課題が明らかになりました。以下は、その主な弱点です:

  1. 過度の単純化: GFTはインフルエンザの流行を予測するために検索キーワードの頻度を単純なモデルに基づいて解析しました。しかし、現実の流行は複雑で、様々な要因に影響を受けます。過度の単純化は、予測の精度を低下させました。
  2. データの偏り: インターネットを利用する人々のデモグラフィックや地理的な分布には偏りがあります。特定の地域や人々の検索行動が反映され、他の地域や人々には適用できないことがあります。
  3. データのノイズ: インターネット検索データは、ノイズや不確かさを含むことがあります。たとえば、インフルエンザのキーワードを検索する人々は、実際にはインフルエンザに罹患していない可能性があるため、偽陽性が問題となりました。
  4. 過学習: ビッグデータ分析では、大量のデータを使用してモデルを訓練することが一般的ですが、過学習(overfitting)のリスクがあります。モデルが訓練データに過度に適合し、未知のデータに対する予測が失敗する可能性があります。
  5. データの変化: データの特性や分布が時間とともに変化することがあります。GFTの場合、Googleのアルゴリズムやユーザーの検索行動が変化することにより、モデルの性能に影響を与えました。
  6. プライバシーと倫理の問題: ビッグデータの収集と解析はプライバシーや倫理の問題を引き起こすことがあります。個人の検索データを使用することに対する懸念や倫理的な問題が存在します。

GFTの事例は、ビッグデータを活用する際には注意深いアプローチが必要であり、単純なデータの量だけでなく、データ品質、ノイズ、データの特性の変化、プライバシーなどの側面を考慮する必要があることを示しました。また、ビッグデータの解析には慎重なモデリングと検証が必要であり、過度な単純化や過学習を避けるべきです。

 

ビッグデータは過剰なノイズを含んでいることがあるため、正確な予測や分析において課題を引き起こすことがあります。この問題に関連して、オーバーフィッティング(overfitting)が発生することがありますが、ビッグデータの特性によってオーバーフィッティングのリスクは低減されることもあります。

以下に、ビッグデータにおけるノイズとオーバーフィッティングについて詳しく説明します:

ノイズの取り込み:

  • ノイズはデータ内の不要な情報や誤差のことを指します。ビッグデータの場合、大量のデータが収集されるため、ノイズも多く含まれる可能性が高まります。
  • ノイズの多いデータは、モデルの訓練を困難にし、予測や分析の信頼性を低下させる可能性があります。特に、過度なノイズがある場合、モデルはノイズ自体を捉えようとして本質的な関係性を見落とす可能性があります。

オーバーフィッティング:

  • オーバーフィッティングは、モデルが訓練データに過度に適合し、訓練データにはうまく適合するが、新しいデータに対する予測性能が低い状態を指します。
  • オーバーフィッティングのリスクは、訓練データが少ない場合やモデルが複雑な場合に高まります。ビッグデータの場合、通常は訓練データが豊富で、複雑なモデルを使用してもモデルの過度な適合が緩和される可能性があります。ただし、これには条件があり、過剰なノイズが存在する場合は依然としてオーバーフィッティングのリスクがあることに注意が必要です。

ビッグデータを有効に活用するためには、以下の対策が重要です:

  1. データの前処理: ノイズを削減し、データ品質を向上させるための前処理手法を使用します。外れ値の除去や不要な情報のフィルタリングなどが含まれます。
  2. 適切なモデルの選択: ビッグデータの場合、単純なモデルでも十分な結果を得られることがあります。モデルの選択を適切に行うことが大切です。
  3. クロスバリデーション: モデルの性能を評価するためにクロスバリデーションを使用し、オーバーフィッティングを検出するのに役立ちます。
  4. 特徴選択: ノイズの多い特徴を削除することで、モデルの性能を向上させることができます。

ビッグデータの分析は複雑であり、ノイズとオーバーフィッティングの問題に対処するために専門的な知識と適切なツールが必要です。

 

データからノイズを除去するためには、データクリーニングとデータ前処理の手法を使用することが重要です。以下は、ノイズを削減するための一般的なアプローチです:

  1. 外れ値の検出と処理:
    • データ内の外れ値(異常値)は、ノイズの一種であり、誤った情報を含むことがあります。外れ値を特定し、必要に応じて処理することが重要です。一般的な手法には、箱ひげ図(box plot)や3σ法などがあります。
  2. 平滑化:
    • データの平滑化は、一時的なノイズや振動を減少させるために使用されます。移動平均、指数平滑化、ローパスフィルタなどの手法があります。
  3. データの正規化:
    • データの正規化により、異なる尺度や範囲のデータを同じスケールに変換できます。これは、データを比較や結合する際に役立ち、ノイズの影響を軽減します。
  4. 異常検出アルゴリズム:
    • 異常検出アルゴリズムは、ノイズや異常値を自動的に検出するために使用されます。代表的なアルゴリズムには、Zスコア法、Isolation Forest、LOF(Local Outlier Factor)などがあります。
  5. 特徴選択:
    • データセット内の冗長な特徴を削除することで、ノイズを減少させることができます。特徴選択アルゴリズムを使用して、最も有用な特徴を選別します。
  6. データ収集の品質向上:
    • データ収集プロセスの品質を向上させることで、初めからノイズを最小限に抑えることができます。正確なデータエントリーやセンサーキャリブレーションなどが含まれます。
  7. 時系列データの平滑化:
    • 時系列データの場合、季節性やトレンドを除去するために、移動平均や指数平滑化などの手法を使用してノイズを減少させることができます。
  8. 異常値の修正:
    • 外れ値や異常値がデータエントリーの誤りに起因する場合、正しいデータで修正することができます。

ノイズを除去するためには、データの種類や問題に応じて適切な手法を選択し、注意深いデータ品質管理を行うことが大切です。また、ノイズ除去の過程で情報の損失にも気をつける必要があります。

 

 


===

西園寺貴文(憧れはゴルゴ13)#+6σの男

   




"make you feel, make you think."

 

SGT&BD
(Saionji General Trading & Business Development)

新たなるハイクラスエリート層はここから生まれる
         




Lose Yourself , Change Yourself.
(変えることのできるものについて、それを変えるだけの勇気を我らに与えたまえ。変えることのできないものについては、それを受け入れられる冷静さを与えたまえ。そして、変えることのできるものと、変えることのできないものとを、見分ける知恵を与えたまえ。)
 
説明しよう!西園寺貴文とは、常識と大衆に反逆する「社会不適合者」である!平日の昼間っからスタバでゴロゴロするかと思えば、そのまま軽いノリでソー◯をお風呂代わりに利用。挙句の果てには気分で空港に向かい、当日券でそのままどこかへ飛んでしまうという自由を履き違えたピーターパンである!「働かざること山の如し」。彼がただのニートと違う点はたった1つだけ!そう。それは「圧倒的な書く力」である。ペンは剣よりも強し。ペンを握った男の「逆転」ヒップホッパー的反逆人生。そして「ここ」は、そんな西園寺貴文の生き方を後続の者たちへと伝承する、極めてアンダーグラウンドな世界である。 U-18、厳禁。低脳、厳禁。情弱、厳禁。