3764. 最常见的课程组合

English Version

题目描述

表：course_completions

+-------------------+---------+
| Column Name       | Type    | 
+-------------------+---------+
| user_id           | int     |
| course_id         | int     |
| course_name       | varchar |
| completion_date   | date    |
| course_rating     | int     |
+-------------------+---------+
(user_id, course_id) 是此表中具有不同值的列的组合。
每一行代表一个用户完成的课程及其评分（1-5 分）。

编写一个解决方案，通过分析顶尖学生完成课程的序列来识别 课程路径：

只考虑 顶尖学生（完成至少 5 门课程且平均评分 4 分或以上 的人）。
对每个顶尖学生，确定他们按时间顺序完成的 课程序列。
找出这些学生所学的所有 连续课程对 （课程 A → 课程 B）。
返回课程对的频率，确定顶尖学生中最常见的课程路径。

返回结果表，按课程对频率降序排列，若频率相同则按第一课程名称和第二课程名称升序排列。

结果格式如下所示。

示例：

输入：

course_completions 表：

+---------+-----------+------------------+-----------------+---------------+
| user_id | course_id | course_name      | completion_date | course_rating |
+---------+-----------+------------------+-----------------+---------------+
| 1       | 101       | Python Basics    | 2024-01-05      | 5             |
| 1       | 102       | SQL Fundamentals | 2024-02-10      | 4             |
| 1       | 103       | JavaScript       | 2024-03-15      | 5             |
| 1       | 104       | React Basics     | 2024-04-20      | 4             |
| 1       | 105       | Node.js          | 2024-05-25      | 5             |
| 1       | 106       | Docker           | 2024-06-30      | 4             |
| 2       | 101       | Python Basics    | 2024-01-08      | 4             |
| 2       | 104       | React Basics     | 2024-02-14      | 5             |
| 2       | 105       | Node.js          | 2024-03-20      | 4             |
| 2       | 106       | Docker           | 2024-04-25      | 5             |
| 2       | 107       | AWS Fundamentals | 2024-05-30      | 4             |
| 3       | 101       | Python Basics    | 2024-01-10      | 3             |
| 3       | 102       | SQL Fundamentals | 2024-02-12      | 3             |
| 3       | 103       | JavaScript       | 2024-03-18      | 3             |
| 3       | 104       | React Basics     | 2024-04-22      | 2             |
| 3       | 105       | Node.js          | 2024-05-28      | 3             |
| 4       | 101       | Python Basics    | 2024-01-12      | 5             |
| 4       | 108       | Data Science     | 2024-02-16      | 5             |
| 4       | 109       | Machine Learning | 2024-03-22      | 5             |
+---------+-----------+------------------+-----------------+---------------+

输出：

+------------------+------------------+------------------+
| first_course     | second_course    | transition_count |
+------------------+------------------+------------------+
| Node.js          | Docker           | 2                |
| React Basics     | Node.js          | 2                |
| Docker           | AWS Fundamentals | 1                |
| JavaScript       | React Basics     | 1                |
| Python Basics    | React Basics     | 1                |
| Python Basics    | SQL Fundamentals | 1                |
| SQL Fundamentals | JavaScript       | 1                |
+------------------+------------------+------------------+

解释：

用户 1：完成了 6 门课程，平均分为 4.5（满足顶尖学生）
用户 2：完成了 5 门课程，平均分为 4.4（满足顶尖学生）
用户 3：完成了 5 门课程但平均得分为 2.8（不满足资格）
用户 4：只完成了 3 门课程（不满足资格）
顶尖学生的课程对：
- 用户 1：Python Basics → SQL Fundamentals → JavaScript → React Basics → Node.js → Docker
- 用户 2：Python Basics → React Basics → Node.js → Docker → AWS Fundamentals
- 最常见的路径：Node.js → Docker (2 次)，React Basics → Node.js (2 次)

结果按 transition_count 降序排列，然后按 first_course 升序排列，再按 second_course 升序排列。

解法

方法一：分组统计

我们首先筛选出所有顶尖学生，记为 top_students，即完成课程数不少于 5 且平均评分不少于 4 的学生。然后对于每个顶尖学生，按完成时间排序，找出所有连续的课程对，记为 course_pairs。最后对所有课程对进行分组统计，计算每个课程对的出现次数，并按要求排序输出结果。

MySQL

# Write your MySQL query statement below
WITH
    top_students AS (
        SELECT user_id
        FROM course_completions
        GROUP BY user_id
        HAVING COUNT(1) >= 5 AND AVG(course_rating) >= 4
    ),
    course_pairs AS (
        SELECT
            course_name AS first_course,
            LEAD(course_name) OVER (
                PARTITION BY user_id
                ORDER BY completion_date
            ) second_course
        FROM
            top_students
            JOIN course_completions USING (user_id)
    )
SELECT
    *,
    COUNT(1) transition_count
FROM course_pairs
WHERE second_course IS NOT NULL
GROUP BY 1, 2
ORDER BY 3 DESC, 1, 2;

Pandas

import pandas as pd


def topLearnerCourseTransitions(course_completions: pd.DataFrame) -> pd.DataFrame:
    grp = course_completions.groupby("user_id")
    top_students = grp.filter(
        lambda df: df.shape[0] >= 5 and df["course_rating"].mean() >= 4
    )["user_id"].unique()

    df = course_completions[course_completions["user_id"].isin(top_students)].copy()
    df = df.sort_values(["user_id", "completion_date"])
    df["second_course"] = df.groupby("user_id")["course_name"].shift(-1)
    df["first_course"] = df["course_name"]

    pairs = df[df["second_course"].notna()][["first_course", "second_course"]]

    result = (
        pairs.groupby(["first_course", "second_course"])
        .size()
        .reset_index(name="transition_count")
        .sort_values(
            ["transition_count", "first_course", "second_course"],
            ascending=[False, True, True],
            key=lambda col: col.str.lower() if col.dtype == "object" else col,
        )
        .reset_index(drop=True)
    )

    return result

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

3764. 最常见的课程组合

题目描述

解法

方法一：分组统计

MySQL

Pandas

Uh oh!

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

3764. 最常见的课程组合

题目描述

解法

方法一：分组统计

MySQL

Pandas