Abstract:
การใช้การเรียนรู้ของเครื่องในการพยากรณ์สินค้าคงค้างกับข้อมูลที่มีรายการสินค้าเป็นจำนวนมากจึงเป็นเรื่องที่จำเป็น ซึ่งในความเป็นจริงข้อมูลที่เจอมักมีความไม่สมดุลทำให้ประสิทธิภาพในการพยากรณ์ด้วยการเรียนรู้ของเครื่องลดลง การพยากรณ์สินค้าคงค้างที่ไม่ถูกต้องนั้นส่งผลต่อความไว้วางใจของผู้ซื้อและทำให้เสียค่าใช้จ่ายถึงร้อยละ 10 ของรายได้ งานวิจัยฉบับนี้จึงได้ศึกษาการปรับสมดุลข้อมูลด้วยวิธี Threshold Moving และการปรับระดับข้อมูลด้วยวิธีสุ่มเพื่อสร้างตัวแบบที่มีประสิทธิภาพและมีความสามารถในการพยากรณ์ข้อมูลกลุ่มน้อยสูง โดยวิธีการปรับระดับข้อมูลมี 4 วิธีได้แก่ การปรับลดข้อมูลด้วยวิธี NearMiss-3, การปรับลดข้อมูลด้วยวิธี OSS, การปรับเพิ่มข้อมูลด้วยวิธี SMOTE และการปรับลดผสมกับเพิ่มข้อมูลด้วยวิธี OSS ผสม SMOTE โดยอัลกอริทึมที่ใช้ได้แก่ LOGIST, FOREST และ XGBoost นอกจากนี้มีการใช้การตรวจสอบแบบไขว้แบบ 5 กลุ่มกับตัวแบบเพื่อป้องกันการเกิด Overfitting ในวิจัยฉบับนี้มีการวัดประสิทธิภาพของตัวแบบด้วย AUROC, F1 score และ G-Mean ซึ่งผลที่ได้จากงานวิจัยฉบับนี้คือการจัดการข้อมูลด้วย Threshold Moving ด้วยการวัดประสิทธิภาพ G-Mean นั้นให้น้ำหนักกับข้อมูลกลุ่มน้อยมากกว่า F1 score และให้ผลลัพธ์ดีกว่า AUROC โดยวิธีการที่ให้ผลลัพธ์ดีที่สุดคือการจัดการข้อมูลด้วย Threshold Moving ด้วยการวัดประสิทธิภาพ G-Mean สำหรับอัลกอริทึม Forest ซึ่งได้ค่าประมาณ 0.8737