Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/64183
Title: Data mining of well logs using decision tree based model
Other Titles: การทำเหมืองข้อมูลของข้อมูลหยั่งธรณีหลุมเจาะด้วยแบบจำลองการตัดสินใจแบบต้นไม้
Authors: Thanyaboon Sudhasirikul
Advisors: Waruntorn Kanitpanyacharoen
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: Waruntorn.K@chula.ac.th
Issue Date: 2018
Publisher: Chulalongkorn University
Abstract: Well-logging is a geophysical survey which provides insights into subsurface geology of an interested borehole. However, the interpretation of well logging data is a time-consuming process and requires an interpreter’s experience. Quantitative approaches are attempted to improve time efficiency. This study uses machine learning model which is one of applied statistics to classify well log lithology and focuses on creating new features or columns to improve model performance which is not widely studied while many studies have been focused on choosing the best model. Data are from the National Petroleum Reserves in Alaska and consist of 11 wells which are 200,000 data in total. Ensemble tree model which shows outstanding performance in previous studies is used to created basic model to classify 3 rock types; mudstone, sandstone, and limestone. The performance of basic model reaches 57.6% of average F1 score and is further improved by incorporating four engineered features. The first feature is known as upsampling and downsampling which is used to manage imbalanced dataset. The second feature involves a calculation of M and N indexes from density, neutron, and sonic logs. To effectively compare and scale data from different wells, the third feature is created through standardization, normalization, and ranking. The fourth feature is developed to reduce data sensitivity and manage outliers by incorporating trimming and winsorizing methods. Results from a combination these features show that upsampling can not improve the model while the effect from downsampling is inconclusive. M and N indexes can slightly improve the model by 1%. The best model combination involves normalization and trimming, which improves the average F1 score by 1%. Hyperparameters of the best model combination such as gamma, max_depth, learning_rate, and n_estimators are tuned to develop the final model, which reaches 60.5% of average F1 score. Further improvement of the classification model can be done by incorporating relative position within a lithologic formation and marine/non-marine indicator.
Other Abstract: การหยั่งธรณีหลุมเจาะเป็นการสำรวจค่าธรณีฟิสิกส์ต่าง ๆ ของชั้นหินผ่านหลุมเจาะสำรวจ เพื่อให้ทราบธรณีวิทยาใต้ผิวดิน การแปลความหมายข้อมูลธรณีหยั่งหลุมเจาะเป็นขั้นตอนที่ใช้เวลาและจำเป็นต้องอาศัยประสบการณ์และความชำนาญของนักธรณีวิทยาที่รับผิดชอบ สถิติจึงอาจนำมาวิเคราะห์เพื่อช่วยให้การแปลความหมายมีประสิทธิภาพมากยิ่งขึ้น การศึกษานี้จึงนำ การเรียนรู้ของเครื่อง (Machine Learning) ซึ่งเป็นสถิติประยุกต์แบบหนึ่งมาใช้จำแนกหินภายในหลุมเจาะจากข้อมูลดังกล่าว งานวิจัยนี้จะมุ่งเน้นไปที่การทดลองสร้างฟีเจอร์หรือคอลัมน์ใหม่จากข้อมูลเดิมเพื่อพัฒนาความแม่นยำของโมเดลซึ่งยังมีการศึกษาในแง่นี้ไม่มากนักเมื่อเทียบกับการศึกษาเพื่อหาแบบจำลองที่เหมาะสมที่สุด โดยข้อมูลที่ใช้สร้างแบบจำลองนำมาจาก National Petroleum Reserves in Alaska มีข้อมูล 11 หลุมเจาะ รวมทั้งสิ้นประมาณ 200,000 ข้อมูล จากการสร้างแบบจำลองขั้นต้น โดยใช้แบบจำลองต้นไม้แบบรวมกลุ่ม (Ensemble tree) ซึ่งมีความแม่ยำสูงในหลายการศึกษาในอดีต เพื่อจำแนกหิน 3 ชนิด ได้แก่ หินดินดาน หินทราย และหินปูน ได้ค่า F1-score เฉลี่ย 57.6% และพัฒนาแบบจำลองด้วยการทดลองสร้างฟีเจอร์ใหม่ 4 ฟีเจอร์ ฟีเจอร์แรกคือการสุ่มเพิ่มและสุ่มลดข้อมูลหินบางชนิดเพื่อแก้ปัญหาปริมาณข้อมูลหินแต่ละชนิดที่แตกต่างกัน ฟีเจอร์ที่สองคือการคำนวณค่า M,N จากค่าความหนาแน่น ค่านิวตรอน และค่าหยั่งโดยเสียง ถัดจากนั้น เพื่อให้ค่ารังสีแกมม่าในแต่ละหลุมเปรียบเทียบกันได้ จึงปรับค่ารังสีแกมม่าด้วยวิธีต่าง ๆ 3 วิธีได้แก่ การหาค่ามาตรฐาน (Standardization) การนอร์มอลไลเซชัน (Normalization) การจดอันดับ (Ranking) และฟีเจอร์สุดท้ายจัดการกับค่าผิดปกติโดยใช้ 2 วิธีได้แก่ การเล็ม (Trimming) และการวินเซอร์ไรส์ (Winsorizing) จากการศึกษาพบว่ายังไม่สามารถสรุปผลกระทบของการสุ่มลดต่อความแม่นยำของแบบจำลองได้ แต่การสุ่มเพิ่มส่งผลให้แบบจำลองมีความแม่นยำลดลง ส่วนค่า M,N เพิ่ม F1-score ได้โดยเฉลี่ย 1% ส่วน การปรับสเกลและการจัดการกับค่าผิดปกติที่เพิ่ม F1-score ได้โดยเฉลี่ยมากสุดประมาณ 1% คือการนอร์มอลไลเซชันและการเล็ม เมื่อนำฟีเจอร์ที่ช่วยพัฒนา F1-score มาใช้ร่วมกันทั้งหมด และทดลองปรับค่าไฮเปอร์พารามิเตอร์ (Hyperparameter) เช่น gamma, max_depth, learning_rate, และ n_estimators จึงสร้างแบบจำลองท้ายสุด ซึ่งได้ค่า F1-score เฉลี่ย 60.5% ในการศึกษาอื่นมีการสร้างฟีเจอร์ เช่น ตำแหน่งของข้อมูลในชุดหิน และหลักฐานบ่งชี้สภาพแวดล้อมการสะสมตัวในทะเล ซึ่งเป็นข้อมูลที่ได้จากการวิเคราะห์โดยนักธรณีวิทยา
Description: In Partial Fulfillment for the Degree of Bachelor of Science Major of Geology, Faculty of Science Chulalongkorn University Academic Year 2018
URI: http://cuir.car.chula.ac.th/handle/123456789/64183
Type: Senior Project
Appears in Collections:Sci - Senior Projects

Files in This Item:
File Description SizeFormat 
Thanyaboon_S_Se_2561.pdf1.67 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.