Evaluating DAS3H on the EdNet Dataset

1 개요[ | ]

Evaluating DAS3H on the EdNet Dataset
EdNet 데이터 세트에서 DAS3H 평가

2 Abstract[ | ]

EdNet 데이터 세트는 학습자 수행 예측에 고유한 문제를 제기하는 방대한 영어 데이터 세트이다. 이 논문에서 수상 경력에 빛나는 모델 DAS3H의 결과를 EdNet의 지식 추적의 맥락에서 설명하고 논평한다.

3 #[ | ]

3.1 전처리[ | ]

다음 순서로 데이터 세트를 전처리했다.

  • 사용자 답변을 사용할 수 없는 중복 행과 행을 제거했습니다.
  • 스킬 태그가 -1인 항목을 제거했다. 다른 모든 기술 태그는 긍정적이고 이 기술 태그가 있는 항목에는 다른 기술 태그가 없기 때문에 우리는 이것이 알려지지 않은 기술이라고 추론했다. 우리는 그것들이 단일 추상 KC 레이블로 합성되기에는 너무 이질적이라고 가정했다.
  • 메타데이터 데이터세트에서 (이진) q-matrix(Tatsuoka 1983)를 구축했다. 일부 기술은 항목에 여러 번 매핑되어 중복을 제거했다.
  • 산타와의 상호작용이 10회 미만인 사용자를 제거했다.

표 1은 이 전처리 단계 이후의 EdNet의 특성을 보여준다. 또한 이전 실험에서 사용한 데이터 세트의 특성을 보고한다. 평균 KC 지연은 동일한 KC와의 두 상호 작용 간의 평균 시간 간격(일)을 나타내고 평균 연구 기간은 각 학생의 마지막 상호 작용과 첫 번째 상호 작용 간의 평균 시간 차이를 나타낸다. 여기에서 EdNet이 우리가 사용한 데이터 세트(Choffin et al. 2019)와 여러 면에서 다르다는 것을 알 수 있다.

  • 훨씬 더 크고 더 많은 사용자를 포함한다.
  • 더 적은 수의 항목을 포함하고 이러한 항목에는 더 많은 기술이 포함된다.

평균적으로;

  • 사용자는 평균적으로 플랫폼에서 더 적은 시간을 보낸다. 학생들이 산타를 독학 도구로 사용하기 때문에 ASSISTments와 같은 ITS와 달리 동기가 플랫폼에서 보내는 시간을 결정한다고 가정한다.

3.2 데이터 세트 인코딩[ | ]

5명의 학습자 모델을 훈련하기 위해 Vie와 Kashima(2019)가 제안한 데이터 인코딩 트릭을 사용했다. 원본 데이터 세트의 각 행을 이 모델에 해당하는 모든 기능을 포함하는 희소 벡터로 표현하고 이 희소한 인코딩된 행렬에서 표준 기계학습 알고리즘(예: 로지스틱 회귀)을 실행하는 것으로 구성된다. 예를 들어, IRT는 사용자와 항목 모두를 원-핫 인코딩하고 결과 열을 연결하여 쉽게 나타낼 수 있다. 이 방법에 대한 자세한 내용은 Vie and Kashima(2019)를 참조하자.

표 2는 각 경쟁 모델에서 사용되는 피처 유형을 종합한 것이다.

3.3 결론[ | ]

이 논문에서는 방대한 교육 데이터 세트인 EdNet에 대한 교육 데이터마이닝 문헌의 5가지 학습자 지식추적 모델을 비교했다. 이 5가지 모델은 이전에 비교되었으며(Choffin et al. 2019) 우리의 목표 중 하나는 이 새로운 데이터 세트에서 이러한 결과를 재현하는 것이었다. 이러한 방대한 데이터 세트는 이전 데이터 세트에서 발생하지 않았던 몇 가지 기술적인 어려움이 있었다.

후속 작업으로 DAS3H 모델의 확장성을 개선하고자 한다. 이것은 인코딩 단계와 훈련 중에 비교한 가장 계산 비용이 많이 드는 모델이었다. 결과적으로 특히 시간 창의 크기와 관련하여 하이퍼파라미터 탐색을 수행할 수 없었다. 수행하면 각 모델의 성능이 향상될 것입니다. 또 다른 접근 방식은 예를 들어 Hawkes 프로세스(Yao, Sahebi 및 FeyziBehnagh 2020; Yao et al. 2021)와 같은 self-exciting 프로세스를 사용하여 특별히 설계된 시간 창에 의존하지 않는 모델을 설계하는 것일 수 있다. 향후 과제로 남겨둔다.

4 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}