リテンション分析と予測モデリング:学生の離脱を防ぐためのデータサイエンスアプローチ

あなたの機関は、人口統計別にリテンション率を追跡し、全体的な継続率を計算し、前年と成果を比較する年次レポートを作成します。それは記述的分析です—何が起こったかを振り返ります。

しかし、明らかな失敗を示す前に、次の学期に中退する可能性が高い特定の学生を特定できたらどうでしょうか?9月に、10月の学生が11月に苦労することを予測し、まだ成功できる間に介入を可能にできたらどうでしょうか?データが反応的な危機からのリテンション管理を予防的予防に変えることができたらどうでしょうか?

それが予測分析です—歴史的パターンを使用して将来の成果を予測し、介入を導きます。

リテンション分析と予測モデリング

記述的、予測的、規範的分析は、高度な洗練度レベルを表します。記述的分析は何が起こったかを要約します(人口統計グループ別のリテンション率、GPA分布、単位累積)。予測的分析は何が起こるかを予測します(どの学生が中退する可能性が高いか、誰がコースに失敗するか、誰が介入を必要とするか)。規範的分析は、どのアクションを取るべきかを推奨します(どの学生にどの介入を展開するか、リソース配分の最適化)。

ほとんどの機関は主に記述的空間で動作します。予測分析への移行には、データインフラ、分析能力、データ情報に基づく介入へのコミットメントが必要です。規範的分析は、洗練されたモデリングと運用システムとの統合を必要とする高度なフロンティアを表します。

一般的なモデリングアプローチには、ロジスティック回帰(持続/持続しないなどのバイナリ結果を予測する従来の統計的方法)、決定木(条件付きロジックを示す視覚的モデル)、ランダムフォレスト(より高い精度のために複数の決定木を組み合わせたアンサンブルモデル)、ニューラルネットワーク/ディープラーニング(複雑な非線形パターンをキャプチャする機械学習)が含まれます。

異なるアプローチにはトレードオフがあります。ロジスティック回帰は解釈可能性を提供します—どの要因が結果を予測し、どのようにかを理解します。機械学習方法は、より高い予測精度を提供しますが、なぜ予測が発生するかについての透明性が低くなります。モデルを比較する研究では、ランダムフォレストモデルは通常、エラスティックネットモデル(70%)よりも高いAUCスコア(平均75%)を達成することがわかりましたが、精度または解釈可能性のどちらを優先するかによって選択は異なります。

予測精度とモデル検証は、モデルが実際に機能するかどうかを決定します。主要なメトリクスには、AUC(曲線下面積、モデル識別能力を測定)、感度(正しく識別されたリスクのある学生の割合)、特異性(正しく分類されたリスクでない学生の割合)、陽性予測値(リスクとしてフラグが立てられた学生のうち、実際に苦労する割合)が含まれます。

最近の研究では、よく設計されたリテンションモデルは通常、0.73から0.91の間のAUC値を達成し、使用されるアルゴリズムと機能に応じて73%から91%の精度率を示しています。モデルは、偽陽性(とにかく成功する学生にフラグを立てる)と偽陰性(リスクのある学生を見逃す)のバランスを取る必要があります。完璧な予測は不可能です—ベースライン識別に対する意味のある改善に焦点を当ててください。

主要なベンダーとプラットフォーム(Civitas Learning、EAB Navigate、Starfish Analytics、Blackboard Analytics、Civitas Inspire)は、高等教育リテンション専用のパッケージ化された予測モデリングを提供します。これらのプラットフォームは、リテンションリスクスコアリング、コース成功予測、早期アラート統合、介入推奨、クライアント機関間のベンチマーキングを提供します。

構築対購入の決定は、機関のデータサイエンス能力とITリソースに依存します。ベンダーは、より速い展開と実証されたモデルを提供しますが、コストが高く、カスタマイズが制限されます。社内開発は完全な制御を可能にしますが、実質的な専門知識と時間投資を必要とします。

リテンションモデリングのためのデータソース

入学前データは、学生が到着する前に利用可能であり、高校のGPAとクラスランク、標準化されたテストスコア(SAT/ACT)、申請行動(申請までの時間、エッセイ、訪問)、財政援助依存とEFC、意図された専攻、人口統計(年齢、民族性、第一世代ステータス)、地理(自宅からの距離、都市/農村の起源)が含まれます。

入学前変数は、リテンションを大幅に予測します—学術的準備、財政的ニーズ、人口統計的要因はすべて継続と相関します。しかし、入学前データだけでは、大学中に出現する動的要因を見逃します。

学生が入学した後の学術パフォーマンスデータには、学期および累積GPA、試行対取得単位、コース失敗パターン、発達教育の配置と成果、専攻変更、学術的地位(良好な地位対保護観察)が含まれます。

学術パフォーマンスは、利用可能になると最も強力なリテンション予測因子を表します。しかし、学期末の成績を待つことは、苦労の早期シグナルが現れるときに介入可能な時間の週を見逃すことを意味します。

財政データは、学生の財政ストレスと安定性を追跡します:財政援助後の未充足ニーズ、アカウント保留と未払い残高、ローンのデフォルト、支払い計画への参加、緊急助成金のリクエスト、財政援助満足のいく学術進歩ステータス、年間を通じた財政援助の変更。

財政問題は、手頃な価格が解決されれば学術的に成功できる学生の間でしばしば重大な離脱を引き起こします。財政ストレス指標は、緊急援助、財政カウンセリング、リソース接続を通じた対象介入を可能にします。

LMS、出席、活動からのエンゲージメントデータには、ログイン頻度とコンテンツアクセス、課題提出パターン、ディスカッション参加、出席率、共同カリキュラム関与、キャンパス雇用、寮生活参加が含まれます。

エンゲージメントメトリクスは、成績と同様にリテンションを予測しますが、より早く現れます—学生は失敗する前にチェックアウトします。エンゲージメントデータを使用することで、学術パフォーマンスシグナルを待つよりも数週間早く介入が可能になります。

早期アラートと介入履歴は、教員が報告した懸念、提供されたアドバイザー介入、サポートサービスの利用(チュータリング、カウンセリング、ライティングセンター)、アウトリーチへの応答(予約の出席率、コミュニケーションエンゲージメント)を示します。

学生がアウトリーチとサポートにどのように応答するかは、成果を予測します。複数の介入試行に応答しない学生は、サポートに積極的に関与している学生よりも高いリスクを示します。

リテンションモデルの構築

特徴選択とエンジニアリングは、どの変数がリテンションを意味を持って予測するかを決定します。リテンション研究で証明された理論に基づく変数(学術的準備、エンゲージメント、財政的ニーズ、帰属)から始めます。あなたの機関でリテンションとの重要な関係を示す変数を統計的にテストします。複数の変数を組み合わせた派生機能を作成します(例:ログイン頻度、参加、提出率を組み合わせたエンゲージメントインデックス)。

より多くの変数が常に良いとは限りません—モデルはシグナルではなくノイズに過剰適合する可能性があります。実行可能な(機関が介入できる)予測機能と、介入が役立つのに十分早く利用可能な機能に焦点を当ててください。

モデルトレーニングと検証は、履歴データをトレーニングセット(モデル構築)と検証セット(精度テスト)に分割します。複数年のデータでモデルをトレーニングして、さまざまな学生コホートをキャプチャします。モデルが見たことのない保留データで検証して、実世界の精度を評価します。

クロスバリデーション技術(k分割検証)は、堅固な精度推定を提供します。モデルを構築するために使用されたデータのみでモデルを評価しないでください—それは精度を劇的に過大評価します。

予測精度メトリクス(AUC、感度、特異性)は、モデルパフォーマンスを評価します。0.70以上のAUCは意味のある予測力を表します。0.80以上のAUCは強力なモデルを示します。研究は、XGBoostのような高度なモデルがクロスバリデートされた精度率90%以上を達成できることを示していますが、実用的な実装は通常73-85%の精度を見ます。介入コストが低く、中退コストが高い場合、感度(ほとんどのリスクのある学生をキャッチ)は特異性(誤警報を避ける)よりもしばしば重要です。

精度メトリクスと実用的考慮事項のバランスを取ります。400人のフラグが立てられた中で300人の真にリスクのある学生を特定する75%の感度を持つモデルは、1,200人の学生(800人の偽陽性を含む)にフラグを立てる90%の感度を持つモデルよりも、1,200人の学生をサポートする能力がない場合に有用です。

セグメンテーションとリスクスコアリングは、バイナリリスク/リスクなしではなく、学生をリスクカテゴリに割り当てます。一般的なアプローチは、四分位数または十分位数(高リスクトップ10%、中リスク次の20%など)またはリスクスコア範囲(介入のしきい値を持つ0-100スケール)を使用します。

リスクスコアリングは優先順位付けを可能にします—最高リスク学生のための集中的介入、中リスクのための積極的監視、低リスクのための一般的サポート。この実用的アプローチは、介入強度をリスクレベルと利用可能なリソースに一致させます。

継続的なモデル改善は、新しい学生コホートがデータを提供するにつれて、モデルを毎年更新します。学生集団が変化し、機関のサポートが進化し、外部要因(経済、パンデミックなど)が行動に影響を与えるにつれて、リテンション予測因子は時間とともにシフトします。一度トレーニングされた静的モデルは時代遅れになります。

年次モデル更新、定期的な検証チェック、達成された成果に基づく介入しきい値の調整を計画してください。

予測モデルの運用化

アドバイジングワークフローでのリスクスコア統合は、アドバイザーが毎日作業する場所に予測を置きます。学生プロフィールと一緒にアドバイジングダッシュボードでリスクスコアを表示します。高リスク学生を目立ってフラグを立てます。異なるリスクレベルのための推奨アクションを提供します。新しいデータが出現するにつれて、定期的に(毎週または毎月)スコアを更新します。

予測モデルは、アクションを通知する場合にのみ役立ちます。アドバイザーワークフローへの統合は不可欠です—アドバイザーが独立してチェックする必要がある別のレポートは介入を促進しません。

自動介入トリガーは、手動スタッフ決定を必要とせずにリスクスコアに基づいてアウトリーチを生成します。学生がリスクしきい値を超えると、自動ワークフローはメールを送信し、予約をスケジュールし、アドバイザーを割り当て、または特定の介入をトリガーします。これにより、手動レビューが可能にする以上の規模で介入が作成されます。

自動化とパーソナライゼーションのバランスを取ります。初期の自動アウトリーチは、中程度の懸念に機能します。高リスク学生は、自動メールだけでなく、人間の介入が必要です。

リスクレベル別のリソース配分は、限られたサポートリソースを戦略的にターゲットにします。高リスクコホートのために低いアドバイザー対学生比率を割り当てます。トップデシルリスク学生のための侵入的アドバイジングを提供します。中リスク学生のためのオプションのサポートを提供します。最も重要な学生に高額な介入(コーチング、集中的チュータリング)を集中させます。

リスク階層化がなければ、リソースは大きく異なるニーズを持つ学生全体に均等に広がります。階層化は、介入効率と影響を増加させます。

キャンペーンターゲティングとパーソナライゼーションは、リスクプロフィールに基づいてコミュニケーションとプログラミングをカスタマイズします。高リスク学生は、頻繁な積極的アウトリーチを受け取ります。中リスク学生は、定期的なチェックインとリソース情報を取得します。低リスク学生は、集中的な接触なしで標準コミュニケーションを受け取ります。

パーソナライゼーションには、メッセージングも含まれます—学術リスクを持つ学生のための学術サポート強調、財政ストレスフラグを持つ学生のための財政リソース情報、社会的に孤立した学生のためのエンゲージメント奨励。

介入効果の測定は、リテンション成果を受け取った介入に接続します。介入を受けた高リスク学生と介入を受けていない同等の高リスク学生(おそらく介入前のコホートから)のリテンション率を比較します。保持された収益マイナス介入コストとして介入ROIを計算します。

厳密な評価には、コントロールグループが必要であり、これは倫理的緊張を生み出します(クリーンな比較を作成するために潜在的に役立つ介入を保留すべきですか?)。介入実装の前/後でコホートを比較する、または選択要因を考慮して一致する非受領者と介入受領者を比較する準実験的方法を使用します。

高度な分析アプリケーション

介入効果モデリングは、どの介入がどの学生に機能するかを予測します。すべての学生が介入に同一に応答するわけではありません。コーチングは、第一世代学生を大幅に助けるかもしれませんが、家族のサポートを持つよく準備された学生にはほとんど影響を示しません。チュータリングは、学術的に準備不足の学生に利益をもたらしますが、財政的または社会的障壁に対処しません。

学生の特性別に介入効果を個別にモデル化して、介入割り当てを導きます。普遍的にではなく、利益を受けると予測される学生にコーチングを提供します。リスクが学術的要因に起因する学生にチュータリングをターゲットにします。

学生成功経路分析は、卒業対中退への共通軌道を特定します。シーケンスマイニングと経路分析はパターンを明らかにします—成功した学生は通常、1年目にX単位を完了し、2年生までにYゲートウェイコースを取り、Zタイムラインまでに専攻を宣言します。成功経路から早期に逸脱する学生は介入を必要とします。

経路分析は、アドバイジング推奨を通知できます—単位で遅れている学生は加速コース取得計画が必要、ゲートウェイコースを避ける学生は主要要件に取り組むための奨励とサポートが必要、問題のあるシーケンスでコースを取る学生はアドバイジングコース修正が必要。

早期勢いメトリクスとしきい値は、最終的な成功を予測する重要な進歩のマイルストーンを定義します。早期予測モデルに関する研究は、最初の学期で完了した15単位、1年目の終わりまでの30単位、特定の時点までのゲートウェイコース完了、または学期別のGPAしきい値などの主要なしきい値を特定します。

早期勢いメトリクスを満たさない学生は、まだコースに失敗していなくても、劇的に高い離脱を示します。早期勢いフレームワークは、介入フォーカスを失敗応答から進歩加速にシフトします。

コースレベルのリテンションモデリングは、学生の特性と準備に基づいて特定のコースでの成功を予測します。特定のプロフィールを持つ学生が化学101で60%の率で失敗する場合、失敗する前に積極的なサポート(補足的指導、必須チュータリング)が成果を改善します。

コースレベルのモデルは、学期の成績が利用可能になる前に早期アラートを可能にします—同様の学生が歴史的に高い率でこのコースに失敗する場合、この学生が苦労するのを待つのではなく、積極的にサポートを提供します。

リテンションのための財政援助最適化は、異なる援助パッケージ戦略のリテンション影響をモデル化します。援助額、助成金対ローン比率、未充足ニーズレベル、または純価格によってリテンションはどのように変化しますか?どの援助調整が予算制約内でリテンションを最大化しますか?

財政援助モデリングは、アクセス、リテンション、純収益目標のバランスを取るデータ情報に基づくパッケージング決定をサポートします。手頃な価格のために中退する可能性が最も高い学生をターゲットにする小さな援助増加は、強力なリテンションROIを生み出すことができます。

実装の考慮事項

データインフラ要件には、複数のシステム(SIS、LMS、財政援助、住宅、活動、早期アラートプラットフォーム)からの学生データを統合するデータウェアハウス、分析データベースを定期的に更新するETLプロセス、品質とプライバシーを保証するデータガバナンス、運用システムと分析プラットフォーム間のリアルタイムデータフローを可能にするAPIが含まれます。

予測分析には、機関がしばしば欠いているデータインフラ投資が必要です。必要なデータパイプラインと統合アーキテクチャを構築するために、ITと早期にパートナーを組んでください。

構築対購入決定フレームワークは、複数の要因を検討します:内部データサイエンスとIT能力、展開と価値までの時間、コスト(ベンダー料金対給与)、カスタマイズニーズ、継続的なメンテナンスと更新、モデルとデータの制御。

強力なデータサイエンスチームを持つ機関は、カスタムソリューションを構築するかもしれません。ほとんどは、より速い展開、実証されたモデル、より低い技術的障壁を提供する目的構築されたプラットフォームを購入する必要があります—ユニークな機関のコンテキストが広範なカスタマイズを必要としない限り。

IRとITリソースのニーズは、高度な分析にとって実質的です。機関研究スタッフには、統計とモデリングの専門知識が必要です。ITチームは、データ統合とインフラを提供します。IR、IT、入学管理、学務の視点を組み合わせた部門横断的な分析チームは、最良の結果を生み出します。

リソースのニーズを過小評価しないでください。予測分析は、ソフトウェアを購入するだけではありません—洞察を実装、解釈、行動できる人々が必要です。

プライバシーと倫理的考慮事項は、分析実装を導く必要があります。学生データプライバシーには、安全なシステムと限定的なアクセスが必要です。予測的ラベリングは倫理的懸念を生み出します—学生を「高リスク」として識別することは、自己実現的予言になりますか?アルゴリズム的意思決定はバイアスを埋め込みますか?

データガバナンス、分析イニシアチブの倫理レビュー、予測が介入をどのように通知するかについての透明性、アルゴリズムエラーがチェックされずに進むことを防ぐ人間の監視を確立してください。機会から学生を除外するのではなく、サポートを導くために予測を使用してください。

モデル使用に関する教職員とスタッフのトレーニングは、非技術スタッフが分析洞察を解釈および適用できることを保証します。アドバイザーは、リスクスコアが何を意味するか、それらを適切に使用する方法、それらがトリガーすべきアクションを理解する必要があります。早期アラートを使用する教員は、彼らの観察が介入のために分析とどのように組み合わさるかを見る必要があります。

トレーニングは、分析を解明し、モデル洞察への適切な信頼を構築し、過度の依存(予測を確実性として扱う)と却下(「数字はユニークな個人をキャプチャしない」ためにデータを無視する)の両方を防ぐ必要があります。

必須のリテンションインフラとしての予測分析

リテンション分析は、リテンションを危機への反応的応答から早期リスク識別に基づく予防的予防に変革します。データは存在します。方法は機能します。テクノロジーは利用可能です。予測分析を成功裏に実装している機関は、より早く、より良くターゲット化された介入を通じてリテンションを改善します。

障壁は主に技術的ではなく組織的です。データインフラの構築には投資が必要です。分析の使用には文化的変化が必要です—専門的判断と一緒にデータを信頼し、確実ではなく確率的予測を受け入れ、データ情報に基づく介入にコミットする。

包括的な分析が圧倒的に思える場合は、小さく始めてください。エンゲージメントフラグと教員の観察を使用して基本的な早期アラートを実装します。いくつかの主要な変数(GPA、取得単位、財政保留)を組み合わせた単純なリスク指標を追加します。スケーリングする前にパイロットコホートを通じて影響を示します。

能力を反復的に成長させます。専門知識が発展するにつれて、より洗練されたモデリングを追加します。インフラが改善するにつれて、追加のデータソースを統合します。分析的成熟度が増加するにつれて、記述的レポートから予測モデルへ、規範的推奨へと拡大します。

部門を超えてパートナーを組みます。リテンション分析には、入学管理、学務、学生事務、機関研究、ITの協力が必要です。単一のユニットは、すべての必要なデータ、専門知識、運用能力を所有していません。

そして、ループを厳密に閉じます。分析情報に基づく介入が実際に成果を改善するかどうかを測定します。介入結果に基づいてモデルを改善します。あなたのコンテキストで機能するものの証拠に基づいてアプローチを進化させます。

予測分析は、リテンション管理の未来を表します。データサイエンスを活用してリスクのある学生をより早く、より効果的に特定しサポートする機関は、失敗への反応的応答のみに依存する機関を上回ります。

さらに詳しく