Press/กด CtrlหรือCmd + P to print
or save as PDF

การเปรียบเทียบประสิทธิภาพการจำแนกเพื่อทำนายข้อมูลการสูบบุหรี่ของวัยรุ่นด้วยเทคนิคเหมืองข้อมูล

Last modified: November 1, 2023
You are here:
Estimated reading time: 2 min
หัวข้อปริญญานิพนธ์:
Project Title:
การเปรียบเทียบประสิทธิภาพการจำแนกเพื่อทำนายข้อมูลการสูบบุหรี่ของวัยรุ่นด้วยเทคนิคเหมืองข้อมูล
The Comparing of Classification Efficiency for Predicting Adolescent Smoking Behavior by Data Mining Techniques
ชื่อนักศึกษา:
Author:
นางสาวศุภนิดา เปียมาลัย, นางสาวนภัสกร นำพรชวาลรุ่ง, นางสาวลลิตา เกิดสันเทียะ
Ms. Supanida Pearmalai, Ms. Napatsakorn Numpornchawanrung, Ms. Lalita Kerdsantia
อาจารย์ที่ปรึกษา:
Advisor:
อาจารย์ณรงค์ฤทธิ์ สุคนธสิงห์
Mr. Narongrit Sukonthasing
ระดับการศึกษา:
Degree:
วิทยาศาสตรบัณฑิต (วท.บ.)
Bachelor of Science
ภาควิชา:
Major:
เทคโนโลยีสารสนเทศ
Information Technology
คณะ:
Faculty:
เทคโนโลยีสารสนเทศ
Information Technology
ภาคการศึกษา/ปีการศึกษา:
Semester / Academic year:
1/2566
1/2023

การอ้างอิง|Citation

ศุภนิดา เปียมาลัย,นภัสกร นำพรชวาลรุ่ง และลลิตา เกิดสันเทียะ. (2566). การเปรียบเทียบประสิทธิภาพการจำแนกเพื่อทำนายข้อมูลการสูบบุหรี่ของวัยรุ่นด้วยเทคนิคเหมืองข้อมูล. (โครงงาน). คณะเทคโนโลยีสารสนเทศ มหาวิทยาลัยสยาม.

Pearmalai S., Numpornchawanrung N., & Kerdsantia L. (2023). DThe Comparing of classification efficiency for predicting adolescent smoking behavior by data mining techniques. (Project). Faculty of Information Technology, Siam University.


บทคัดย่อ

งานวิจัยนี้ มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพการจำแนกเพื่อทำนายข้อมูลการสูบบุหรี่ของวัยรุ่นโดยใช้เทคนิคเหมืองข้อมูล 3 วิธี คือ J48, Naïve Bayes และ โครงข่ายประสาทเทียม ในการสร้างแบบจำลอง ซึ่งใช้ข้อมูลการตอบแบบสอบถามของนักศึกษา มหาวิทยาลัยสยาม จำนวน 543 คน และนำมาเปรียบเทียบประสิทธิภาพของโมเดลการจำแนกหาตัวแบบที่เหมาะสมเพื่อใช้ทำนายการสูบบุหรี่ของวัยรุ่น โดยแบ่งข้อมูลออกเป็น 3 ชุด วิเคราะห์ข้อมูลบนพื้นฐานของวิธี 10-fold cross validation เพื่อใช้ในการทดสอบประสิทธิภาพของโมเดล โดยใช้โปรแกรม Weka นำข้อมูลเข้าโมเดลในการสร้างแบบจำลอง ชุดข้อมูลที่ 1 จำนวน 22 Attribute พบว่า ประสิทธิภาพทำนายวิธี J48 มีค่าความถูกต้องมากที่สุดคือ 81.95% รองลงมาวิธี Naïve Bayes มีค่าความถูกต้องเท่ากับ 78.82% ลำดับสุดท้ายวิธี โครงข่ายประสาทเทียมมีค่าความถูกต้องเท่ากับ 78.45% , ชุดข้อมูลที่ 2 จำนวน 32 Attribute พบว่า ประสิทธิภาพทำนายวิธี J48 มีค่าความถูกต้อง (Accuracy) มากที่สุดคือ 80.85% รองลงมาวิธี โครงข่ายประสาทเทียมมีค่าความถูกต้องเท่ากับ 80.11% ลำดับสุดท้ายวิธี Naïve Bayes มีค่าความถูกต้องเท่ากับ 77.90% และชุดข้อมูลที่ 3 จำนวน 47 Attribute พบว่า ประสิทธิภาพทำนายวิธี โครงข่ายประสาทเทียม มีค่าความถูกต้องมากที่สุดคือ 81.40% รองลงมาวิธี J48 มีค่าความถูกต้องเท่ากับ 80.48 % ลำดับสุดท้ายวิธี Naïve Bayes มีค่าความถูกต้องเท่ากับ 77.72% จากการเปรียบเทียบค่าความถูกต้องของการใช้ข้อมูลชุดที่ 1, ข้อมูลชุดที่ 2 และ ข้อมูลชุดที่ 3 ทำนายผลการสูบบุหรี่ของวัยรุ่น พบว่า โมเดลทำนายของชุดข้อมูลทั้ง 3 ชุด มีค่าความถูกต้อง (Accuracy) เพิ่มขึ้นและลดลงแตกต่างกัน พิจารณารายวิธีพบว่า วิธี Naïve Bayes ลดลง 0.92% และ 0.18% , J48 ลดลง 1.1% และ 0.37% , โครงข่ายประสาทเทียม เพิ่มขึ้น 1.66% และ 1.29% สรุปได้ว่า โมเดลการทำนายผลการสูบบุหรี่ของวัยรุ่นด้วยวิธี J48 โดยใช้ข้อมูลชุดที่ 1 มีค่าความถูกต้องมากที่สุดคือ 81.95%

คำสำคัญ : การจำแนกข้อมูล, ปัจจัยการสูบบุหรี่, เหมืองข้อมูล


Abstract

Objective of our research is comparing the classification performance of predicting adolescent smoking behavior using data mining techniques by J48, Naïve Bayes, and Artificial Neural Networks to produces research models. Datasets of 543 Siam University students who answers questionaire was analysed for the classification efficiency for predicting models comparision. The data was divided into three sets, each sets were analyzed with 10-fold cross-validation method to examine the model’s efficiency. All data was manage with Weka program. For the first dataset, with 22 attributes, the J48 method showed the highest accuracy at 81.95%, followed by Naïve Bayes, with 78.82%, and the Artificial Neural Network, with 78.45%. The second dataset included 32 attributes, J48 had the highest accuracy at 80.85%, followed by the Artificial Neural Network with 80.11%, and Naïve Bayes with 77.90%. The third dataset containing 47 attributes, the Artificial Neural Network had the highest accuracy at 81.40%, followed by J48 with 80.48%, and Naïve Bayes with 77.72%. Comparing the accuracy values for predicting adolescent smoking behavior across the three datasets, it was observed that the models’ performance varied. Naïve Bayes decreased by 0.92% and 0.18%, J48 decreased by 1.1% and 0.37%, while the Artificial Neural Network increased by 1.66% and 1.29%. In summary, the J48 model using the first dataset achieved the highest accuracy of 81.95% in predicting adolescent smoking behavior.

Keywords: classification, data mining, smoking factor.


การเปรียบเทียบประสิทธิภาพการจำแนกเพื่อทำนายข้อมูลการสูบบุหรี่ของวัยรุ่นด้วยเทคนิคเหมืองข้อมูล | The Comparing of Classification Efficiency for Predicting Adolescent Smoking Behavior by Data Mining Techniques

คณะเทคโนโลยีสารสนเทศ มหาวิทยาลัยสยาม  |  Faculty of Information Technology, Siam University, ฺBangkok, Thailand