DSpace Repository

Data mining of well logs using decision tree based model

Show simple item record

dc.contributor.advisor Waruntorn Kanitpanyacharoen
dc.contributor.author Thanyaboon Sudhasirikul
dc.contributor.other Chulalongkorn University. Faculty of Science
dc.date.accessioned 2020-02-17T09:28:28Z
dc.date.available 2020-02-17T09:28:28Z
dc.date.issued 2018
dc.identifier.uri http://cuir.car.chula.ac.th/handle/123456789/64183
dc.description In Partial Fulfillment for the Degree of Bachelor of Science Major of Geology, Faculty of Science Chulalongkorn University Academic Year 2018 en_US
dc.description.abstract Well-logging is a geophysical survey which provides insights into subsurface geology of an interested borehole. However, the interpretation of well logging data is a time-consuming process and requires an interpreter’s experience. Quantitative approaches are attempted to improve time efficiency. This study uses machine learning model which is one of applied statistics to classify well log lithology and focuses on creating new features or columns to improve model performance which is not widely studied while many studies have been focused on choosing the best model. Data are from the National Petroleum Reserves in Alaska and consist of 11 wells which are 200,000 data in total. Ensemble tree model which shows outstanding performance in previous studies is used to created basic model to classify 3 rock types; mudstone, sandstone, and limestone. The performance of basic model reaches 57.6% of average F1 score and is further improved by incorporating four engineered features. The first feature is known as upsampling and downsampling which is used to manage imbalanced dataset. The second feature involves a calculation of M and N indexes from density, neutron, and sonic logs. To effectively compare and scale data from different wells, the third feature is created through standardization, normalization, and ranking. The fourth feature is developed to reduce data sensitivity and manage outliers by incorporating trimming and winsorizing methods. Results from a combination these features show that upsampling can not improve the model while the effect from downsampling is inconclusive. M and N indexes can slightly improve the model by 1%. The best model combination involves normalization and trimming, which improves the average F1 score by 1%. Hyperparameters of the best model combination such as gamma, max_depth, learning_rate, and n_estimators are tuned to develop the final model, which reaches 60.5% of average F1 score. Further improvement of the classification model can be done by incorporating relative position within a lithologic formation and marine/non-marine indicator. en_US
dc.description.abstractalternative การหยั่งธรณีหลุมเจาะเป็นการสำรวจค่าธรณีฟิสิกส์ต่าง ๆ ของชั้นหินผ่านหลุมเจาะสำรวจ เพื่อให้ทราบธรณีวิทยาใต้ผิวดิน การแปลความหมายข้อมูลธรณีหยั่งหลุมเจาะเป็นขั้นตอนที่ใช้เวลาและจำเป็นต้องอาศัยประสบการณ์และความชำนาญของนักธรณีวิทยาที่รับผิดชอบ สถิติจึงอาจนำมาวิเคราะห์เพื่อช่วยให้การแปลความหมายมีประสิทธิภาพมากยิ่งขึ้น การศึกษานี้จึงนำ การเรียนรู้ของเครื่อง (Machine Learning) ซึ่งเป็นสถิติประยุกต์แบบหนึ่งมาใช้จำแนกหินภายในหลุมเจาะจากข้อมูลดังกล่าว งานวิจัยนี้จะมุ่งเน้นไปที่การทดลองสร้างฟีเจอร์หรือคอลัมน์ใหม่จากข้อมูลเดิมเพื่อพัฒนาความแม่นยำของโมเดลซึ่งยังมีการศึกษาในแง่นี้ไม่มากนักเมื่อเทียบกับการศึกษาเพื่อหาแบบจำลองที่เหมาะสมที่สุด โดยข้อมูลที่ใช้สร้างแบบจำลองนำมาจาก National Petroleum Reserves in Alaska มีข้อมูล 11 หลุมเจาะ รวมทั้งสิ้นประมาณ 200,000 ข้อมูล จากการสร้างแบบจำลองขั้นต้น โดยใช้แบบจำลองต้นไม้แบบรวมกลุ่ม (Ensemble tree) ซึ่งมีความแม่ยำสูงในหลายการศึกษาในอดีต เพื่อจำแนกหิน 3 ชนิด ได้แก่ หินดินดาน หินทราย และหินปูน ได้ค่า F1-score เฉลี่ย 57.6% และพัฒนาแบบจำลองด้วยการทดลองสร้างฟีเจอร์ใหม่ 4 ฟีเจอร์ ฟีเจอร์แรกคือการสุ่มเพิ่มและสุ่มลดข้อมูลหินบางชนิดเพื่อแก้ปัญหาปริมาณข้อมูลหินแต่ละชนิดที่แตกต่างกัน ฟีเจอร์ที่สองคือการคำนวณค่า M,N จากค่าความหนาแน่น ค่านิวตรอน และค่าหยั่งโดยเสียง ถัดจากนั้น เพื่อให้ค่ารังสีแกมม่าในแต่ละหลุมเปรียบเทียบกันได้ จึงปรับค่ารังสีแกมม่าด้วยวิธีต่าง ๆ 3 วิธีได้แก่ การหาค่ามาตรฐาน (Standardization) การนอร์มอลไลเซชัน (Normalization) การจดอันดับ (Ranking) และฟีเจอร์สุดท้ายจัดการกับค่าผิดปกติโดยใช้ 2 วิธีได้แก่ การเล็ม (Trimming) และการวินเซอร์ไรส์ (Winsorizing) จากการศึกษาพบว่ายังไม่สามารถสรุปผลกระทบของการสุ่มลดต่อความแม่นยำของแบบจำลองได้ แต่การสุ่มเพิ่มส่งผลให้แบบจำลองมีความแม่นยำลดลง ส่วนค่า M,N เพิ่ม F1-score ได้โดยเฉลี่ย 1% ส่วน การปรับสเกลและการจัดการกับค่าผิดปกติที่เพิ่ม F1-score ได้โดยเฉลี่ยมากสุดประมาณ 1% คือการนอร์มอลไลเซชันและการเล็ม เมื่อนำฟีเจอร์ที่ช่วยพัฒนา F1-score มาใช้ร่วมกันทั้งหมด และทดลองปรับค่าไฮเปอร์พารามิเตอร์ (Hyperparameter) เช่น gamma, max_depth, learning_rate, และ n_estimators จึงสร้างแบบจำลองท้ายสุด ซึ่งได้ค่า F1-score เฉลี่ย 60.5% ในการศึกษาอื่นมีการสร้างฟีเจอร์ เช่น ตำแหน่งของข้อมูลในชุดหิน และหลักฐานบ่งชี้สภาพแวดล้อมการสะสมตัวในทะเล ซึ่งเป็นข้อมูลที่ได้จากการวิเคราะห์โดยนักธรณีวิทยา en_US
dc.language.iso en en_US
dc.publisher Chulalongkorn University en_US
dc.rights Chulalongkorn University en_US
dc.title Data mining of well logs using decision tree based model en_US
dc.title.alternative การทำเหมืองข้อมูลของข้อมูลหยั่งธรณีหลุมเจาะด้วยแบบจำลองการตัดสินใจแบบต้นไม้ en_US
dc.type Senior Project en_US
dc.email.advisor Waruntorn.K@chula.ac.th


Files in this item

This item appears in the following Collection(s)

Show simple item record