איך מבינים Cohort Analysis?

Cohort Analysis sample

אחת מהבעיות הגדולות של כל תחום מקצועי היא טרמינולוגיה. חשוב להבהיר למה בדיוק מתכוונים ובשביל זה יש מונחים מקצועיים שמוסכם על כולם מה הם אומרים. או לפחות אנחנו מנסים שיהיה מוסכם על כולם מה הם אומרים ומה אנחנו עושים אם אנחנו לא מבינים את אחד מהמונחים?

בשאיפה אנחנו מחפשים בגוגל ומגיעים ממש לפוסט שמסביר אותו. ואז אנחנו יכולים לגלות שהכלי שנקרא Cohort Analysis הוא בגדול ביצוע של מחקר על ידי חלוקה של אנשים לקבוצות ובדיקה מה קורה לכל קבוצה, לרוב לאורך זמן. יש הרבה דרכים לבצע את המחקר הזה. אני אתחיל מדוגמה פשוטה ואנסה להסביר קצת יותר לעומק למה מדובר באחד מהכלים היותר חזקים שיש לנו להבין מה קורה עם המוצר שלנו. 

בואו נסתכל לדוגמה, על אחד מתרשימי ה-cohort analysis הכי נפוצים שיש, ניתוח retention בקבוצות של שבועות. נניח שיש לי אפליקציה בשם חתוליקו שעוזרת למשתמשים שלי לאתר את החתול שלהם בחינם ותמורת תשלום פרימיום קטן גם לעקוב אחרי רמת האדישות והשעמום של החתול. שיחררתי את האפליקציה לעולם בשבוע הראשון של ינואר ומייד בשבוע הראשון 15,234 אנשים התקינו את האפליקציה. אני רושם לי את הנתונים במסודר בטבלה:

אני מחכה שבוע כדי לראות כמה משתמשים ממשיכים להשתמש באפליקציה אחרי שבוע, ומגלה ש 70% מהמשתמשים עדיין איתי! מצוין! אני ארשום את זה בטבלה שלי:

עכשיו אם מישהו ישאל אותי כמה משתמשים נשארו איתי אחרי שבוע (או במונחים מקצועיים "מה אחוז ה-retention שלי"). אני אוכל להגיד ש-70.4% מהמשתמשים שרדו שבוע. אז כמובן שנחכה עוד שבוע ונרשום כמה מהמשתמשים המקוריים שהתחילו את דרכם בשבוע של ה-5.1.2020 עדיין איתנו והתשובה היא 35.9:

מה זה אומר? שמשתמשים ממשיכים לעזוב את האפליקציה. והרבה מהם. בסוף השבוע השלישי נשארו רק 18.3% מקבוצת המשתמשים הראשונית:

אבל רגע! בזמן שחיכינו שבועיים למדוד את זה הצטרפו עוד משתמשים בכל שבוע! אז בואו נוסיף אותם ונראה מה קיבלנו עבורם:

חשוב לשים לב לכמה דברים בטבלה שיצאה לנו: אחד הוא שמספר סך כל המשתמשים הוא לא לפי שבוע, אלא סך הכול. זה נראה קצת מבלבל כי שאר הנתונים הם לפי שבוע.

ודבר שני חשוב לזכור שבגלל שאנחנו בסופו של השבוע השלישי אז מי שהצטרף במהלך השבוע של ה-19 לינואר נמצא איתנו עד שבוע אחד, מי שהצטרף בשבוע של ה-12 לינואר איתנו כבר עד שבועיים, ומי שהצטרף בקבוצה הראשונה איתנו כבר שלושה שבועות ולכן נוצר המבנה המדורג המצחיק שיש ל-cohort Analysis. 

אם נדלג כמה שבועות קדימה נקבל את התרשים הזה:

זה תרשים קצת עגום. אנחנו יכולים לראות בבירור שלאחר שבועיים של התנסות עם האפליקציה נשארים איתנו בערך רבע מהמשתמשים מכל קבוצת אנשים. 

עכשיו הגענו לחודש פברואר ואנחנו קצת לחוצים. אז אנחנו עושים ניסוי. כל מי שמוריד את האפליקציה בחודש פברואר מקבל שלושה שבועות של שירות פרימיום בחינם, מדידות של רמת האדישות של החתול שלו. מיד רואים את התוצאות:

חזרנו לסביבות ה-75% משתמשים שנשארים איתנו אחרי השבוע הראשון שלהם, וסביב 55% בסוף השבוע השני. מעניין לראות שסך כל מספר המשתמשים לא עלה משמעותית. כלומר לא היו הרבה משתמשים חדשים שהתקינו את האפליקציה, פשוט מי שמשתמש נשאר יותר זמן עם האפליקציה. 

אולי הדבר הכי חזק ש-cohort analysis עושה עבורנו זה שהוא בעצם מאפשר לנו להסתכל על מה ההשפעות של מה שאנחנו עושים עם המוצר על הרצון של המשתמשים להמשיך להשתמש באפליקציה לאורך זמן. כמובן שיש תרשימי Cohort Analysis אחרים שבודקים מדדים אחרים, אבל העיקרון הוא אותו עיקרון. אנחנו מחלקים את המשתמשים שלנו לקבוצות לפי קטגוריה אחת ומודדים את ההשפעה עליהם לפי מדד אחר לאורך זמן. 

אם נחשוב על זה רגע, אז נבין שנתוני Cohort Analysis אפשר לקרוא גם משמאל לימין וגם מלמעלה למטה. מה הכוונה? אם אני רק מסתכל על השורה הראשונה בטבלה שלי אני רואה קבוצה של אנשים שהתקינו את האפליקציה שלי וכמה מהם המשיכו להשתמש באפליקציה לאורך זמן.אם נסתכל על קבוצת המשתמשים שהתחילו להשתמש באפליקציה בשבוע השישי נוכל לראות ש-כ-25% מהם המשיכו להשתמש באפליקציה לאורך 5 שבועות, שזה כבר מראה על שיפור מהותי לעומת האנשים שהצטרפו בשבועות הקודמים, בהם אחוז הנותרים היו בין 2.8% לבין 4.8%. כנראה שמה שעשינו בשבוע של ה-2.2.2020 היה מוצלח והשאיר משתמשים לאורך יותר זמן.

אם לעומת זאת מסתכל על הנתונים מלמעלה למטה בעמודה אחת, למשל בנתוני השבוע הראשון:

אני רואה מה הייתה רמת הנטישה של משתמשים לאחר השבוע הראשון. ואני יכול להבין מתי שיפרתי את "חווית השבוע הראשון" למשתמשים שלי או מתי חווית השבוע הראשון היתה פחות מוצלחת והובילה לנטישה. כנ"ל כמובן עם "חוויות השבוע השני" או כל שבוע אחר. 

הערה חשובה: בדוגמה שאני נותן פה אני רושם בעמודה השלישית את מספר המשתמשים הכללי של המערכת. לפעמים עדיף לכתוב את גודל ה-cohort במקום ולפעמים רושמים את שניהם בעמודות נפרדות. למה זה חשוב לרשום את גודל ה-cohort? כי אנחנו לא רוצים לייחס אותה רמת חשיבות לשבוע מאוד חלש שיש בו רק 100 משתמשים לעומת שבוע עם 10,000 משתמשים. ככל שגודל הקבוצה יותר קטן אז יש פחות משמעותית סטטיסטית לתוצאות שלו. בגלל זה אם אני מתעסק עם מוצר חדש אני לרוב רושם גם את גודל ה-cohorts. אבל כהעדפה אישית אם אני מתעסק עם מוצר מבוסס בשוק שיש לו בסיס לקוחות רחב או שכבר ראיתי שאין אנומליות בגדלי ה-cohort אז אני רושם את הסה"כ כדי לא לאבד פוקוס על מצב המוצר שלי באופן כללי. תודה רבה לגלעד לבנת שהסב את תשומת ליבי לנקודה הזו.

יש עוד הרבה מסקנות וניתוחים שאפשר להוציא מטבלאות של Cohort Analysis, אבל עכשיו אנחנו מבינים איך לקרוא אותם ומה הם יודעים לספר לנו ברמת הפשט אנחנו כבר קצת יותר חכמים.

ונסיים עם חידה, מה לדעתכם קרה בשבוע הראשון של חודש מרץ שהשפיע על שאר החודש?