Skip to content
Share
Explore

Intro to DataScience

Recommend book
images.jpeg
ROBIN HOOD MATH บอกไว้ว่าการที่เราจะใจเรื่อง DATA ไม่จำเป็นต้องจบ pure math แต่สิ่งที่สำคัญที่สุด คือ logic พื้นฐาน และกระบวนการคิดอย่างเป็นระบบ


ในหนังสือพูดถึง concept เรื่อง Numerification คือ ทุกอย่างหรือการการทำของเรานั้นจะสามารถเปลี่ยนเป็นเป็นตัวเลขได้ ยกตัวอย่างให้เห็นภาพ เช่น Socail Media Algorithms
พยามจะเก็บข้อมูลเราผ่าน ยอดการกด
, comment
, หรือ การ share
เพื่อที่จะไปทำการ scoring (การให้คะแนน) → หลังจากนั้นทำการranking เพื่อที่จะได้เลือกที่จะมา show บนหน้าจอเราในขณะที่เราไถหน้าจออยู่นั่นเอง (DOM Scolling)
Formula
unnamed.png
V = ค่าที่
ได้กำหนดไว้ เหมือนในรูป เช่น 1,2,3
P = ค่าความน่าจะเป็นของการกด
, comment
, หรือ การ share

เหตุผลหลักที่ต้องการทำ scoring คือ
Adjust V
Estimate P
Maximize Your Sceen Time
Life Formula
ทุกกิจกรรมหรือทุกๆการกระทำของเราควรที่จะมีการ assign value ที่เป็นตัวเลขลงไปด้วย เพื่อที่เราจะได้เลือกในสิ่งที่สำคัญที่สุดสำหรับชีวิตเราก่อน และ ทุกๆการกระทำ เช่น การอ่านหนังสือ ควรที่จะมีการตั้งคำถาม เช่น concept หรือ idea เราจะสามารถนำมาประยุกต์ใช้ยังไงกับชีวิตเราได้บ้าง

Big Data

A wooden block spelling data on a table
ที่เกริ่นมาจากข้างบนทั้งหมดนั้น คือสิ่งที่เรียกว่า DATA (สิ่งที่เกิดขึ้นมาบนโลกนี้ละถูกบันทึกไว้
เพื่อที่จะเอาไปต่อภายหลัง) โดยหลังๆนี้จะมี concept ที่เรียกว่า BIG DATA โดยที่ BIG DATA เกิดขึ้นได้เพราะ เรามี storage ที่เก็บข้อมูลได้เยอะขึ้น และ ราคาถูกลง โดยส่วนประกอบหลักจะประกอบด้วย
Volume (ใหญ่)
Velocity (เร็ว)
Variety (หลากหลาย)

What is Data Analytic ?

จากข้างบนเราจะเกิดคำถามว่าเราเก็บ Data ไปเพื่ออะไร ซึ่งคำตอบของคำถามนั้นก็คือเราเก็บ Data เพื่อที่ไปทำการ Analytic เราเปลี่ยน Data เป็น Insight เพื่อที่จะช่วยเราแก้ปัญหาหรือช่วยธุรกิจให้เติบโตไปข้างหน้าได้ดีมากขึ้น
โดยจะมี Framwork ที่นิยมใช้กันดังนี้
Five-Types-of-analytics.jpg

Descriptive Analytics (เมื่อวานเป็นอย่างไร?)
Dianostic Analytics (ทำไมถึงเกิดเรื่องนั้นขึ้น?)
Predictive Analytics (อนาคตจะเป็นอย่างไร?)
Presciptive Analytics (ควรทำไรเพื่อจะรับมือกับเรื่องที่จะเกิดขึ้น?)
Cognitive Analytics (เอาระบบหรือคอมพิวเตอร์มาเพื่อช่วยให้เราตัดสินใจได้ดีขึ้น)

Data Analyst Workflow

Screenshot 2568-09-17 at 10.50.21.png
โดยหน้าที่ของนัก Data ไม่ว่าจะเป็น Data Analyst หรือ Data Science คือการที่เราได้ดึงข้อมูลมาจาก Database มากเป็น CSV ละมาสร้าง Dashboad หรือ Model ต่างๆเพื่อที่จะช่วยแก้ปัญหาหรือซัพพอร์ตไปข้างหน้าได้ยิ่งขึ้น

CRISP-DM
wi-crisp-en.jpg
CRISP-DM (Cross-Industry Standard Process for Data Mining) คือ Framwork ที่ข้างนิยมกันมากเวลาเราจะทำ Project Data Science ประกอบด้วย 6 ขั้นตอนหลัก :
Business Understanding (ทำความเข้าใจธุรกิจ)
Data Understanding (ทำความเข้าใจข้อมูล)
Data Preparation (การเตรียมข้อมูล)
Modeling (การสร้างแบบจำลอง)
Evaluation (การประเมินผล)
Deployment (การนำไปใช้)


Case Study 1 : TARGET

Target-retail.webp

TARGET ต้องการที่จะ predict ผู้หญิงท้อง เพราะว่าผู้หญิงจะมีพฤติกรรมการซื้อสินค้าที่เปลี่ยนไปเมื่อรู้ตัวว่าตัวเองนั้นท้อง เช่น ต้องการซื้ออาหารเสริม หรือ วิตามินเพื่อมาดูและลูกในท้อง → โดย Obective ของ TARGET เพื่อที่จะสร้าง Life Time Value สำหรับลูกค้าคนนั้นเพื่อที่จะให้ลูกค้าซื้อสินค้าตลอด 9 เดือนที่เค้าตั้งท้อง

โดย Concept ที่ TARGET ใช้เราเรียกว่า Classification ML คือการ ที่เราเก็บที่เก็บ Dataset → แปลงเป็นความน่าจะเป็น → Classification (เปลี่ยนเป็นใช่ หรือ ไม่ใช่) → เราวัดผลด้วย Confusion Metrix

Gemini_Generated_Image_h5y9zih5y9zih5y9.png

Case Study 2 : TESCO

tesco-dooh-SS.jpg

TESCO ได้จ้างบริษัท Dunnhumny ในปี 1994 มาเพื่อเก็บ Data ซึ่งตอนนั้น TESCO ต้องการแย่งส่วนแบ่งตลาดมาจาก -Sainsbury's ซึ่งเป็นผู้นำ และได้เริ่มเก็บข้อมูลเพียงแค่ 5 คอลัมน์ ได้แก่ ID, วันที่, ยอดเงิน, สาขา, และลูกค้า จาก Data ที่เก็บมาTESCO สามารถระบุ Top Spender , Low Spender โดยการที่ลูกค้าคนไหนที่ใช้จ่ายซื้อของที่ TESCO มากสุดก็จะได้คูปองหรือส่วนลดที่เยอะกว่า ลูกค้าที่มีการใช้จ่ายน้อยกว่า โดยนอกจากนี้เค้ายังได้มีการ นำ Data มาเพื่อหา Insight อื่นๆเช่น เวลาไหนที่ลูกค้าจะเข้ามาซื้อของมากที่สุด หรือ สาขาไหนที่ลูกค้ามากสุด หรือ น้อยสุด

โดยการแค่เก็บ Data มาแค่ 5 คอลัมน์ ทำให้ TESCO สามารถกลับมาคลองส่วนแบ่งการตลาดเป็นอันดับ 1 เหนือ Sainsbury's ได้ในที่สุด

20140726_BRC394.webp

โดย TESCO ได้มีการนำเทคนิค Market Basket Analysis โดย idea ของโมเดลก็ไม่ได้ยากเลยคับ สมมุติว่าลูกค้าต้องการซื้อไข่🥚 โมเดลจะมีหน้าที่ในการบอกกับว่าว่าสินค้าถัดไปที่ลูกค้าจะซื้อเป็นกี่เปอร์เซ็น เช่น นม,ขนมปังโดยTESCOต้องการที่จะรู้ว่าสินค้ากลุ่มไหนที่จะถูกซื้อพร้อมกันบ่อยที่สุด
TESCOนำการวิเคราะห์นี้มาใช้เพื่อ:
การทำ (Bundle): เช่น จัดโปรโมชัน "ซื้อนมและขนมปังคู่กันในราคาพิเศษ" ซึ่งเป็นการกระตุ้นให้ลูกค้าซื้อสินค้าเพิ่มขึ้น
จัดวางสินค้าในร้าน(Planogram): วางสินค้าที่มักถูกซื้อคู่กันให้อยู่ใกล้ๆ กัน เช่น วางช็อกโกแลตไว้ใกล้กับกาแฟ เพื่อเพิ่มโอกาสในการซื้อสินค้าโดยไม่ได้ตั้งใจ (Impulse Buy)
การออกคูปองส่วนลดแบบเจาะจง: ส่งคูปองที่ตรงกับพฤติกรรมการซื้อของลูกค้าแต่ละคน เช่น ถ้าลูกค้าซื้อแชมพูยี่ห้อหนึ่งเป็นประจำ ก็จะส่งคูปองสำหรับครีมนวดผมยี่ห้อเดียวกันไปให้
Market_Basket_Analysis_1_97fbd171b1.webp
การใช้ Market Basket Analysis ทำให้ TESCOสามารถเพิ่มยอดขายและสร้างประสบการณ์ที่ตรงใจลูกค้าได้มากกว่าแค่การให้ส่วนลดทั่วไป


Case Study 3 : Netflix


Netflix_logo.svg.png
โดยในปี 2006 Reed Hastings ผู้ร่วมก่อตั้ง NETFLIX ได้มีการจัดการแข่งขันที่โด่งดังที่สุดชื่อว่า Netflix Prize เพื่อสร้างโมเดลระบบแนะนำหนังหรือซีรี่ย์

Netflix Prize คือการแข่งขันอะไร
NETFLIX ต้องการจัดการแข่งขันเพื่อหานักวิทยาศาสตร์ข้อมูล (data scientists) ที่จะมาช่วยเพิ่มความแม่นยำของระบบแนะนำหนังหรือซีรี่ย์ของพวกเขาให้ดีขึ้น โดยที่ทีมที่สามารถสร้างโมเดลทำนายที่มีความแม่นยำมากกว่าโมเดลเดิมของ NETFLIX (ที่ชื่อว่า Cinematch) ได้ถึง 10% จะได้รับเงินรางวัลใหญ่ถึง 1 ล้านดอลลาร์สหรัฐ
โดยทีมที่ชนะมีชื่อว่า BellKor's Pragmatic Chaos ซึ่งเป็นการรวมตัวกันของ 3 ทีมย่อยได้แก่:
BellKor: กลุ่มนักวิจัยจากบริษัท AT&T Labs
The Ensemble: กลุ่มนักวิทยาศาสตร์ข้อมูลและวิศวกรซอฟต์แวร์
Pragmatic Theory: กลุ่มนักวิจัยจากบริษัทในสวีเดน
พวกเขาเอาชนะโมเดลของ NETFLIX ได้ด้วยคะแนนความแม่นยำที่เหนือกว่าถึง 10.06% และได้รับเงินรางวัลไปในปี 2009 โดยเทคนิคที่พวกเค้าใช้เรียกว่า Ensemble Modeling ซึ่งเป็นการรวมเอาโมเดลระบบแนะนำหลายๆ ตัวเข้าด้วยกันเพื่อให้ได้ผลลัพธ์ที่แม่นยำที่สุด

แต่ประเด็นหลักๆก็คือ NETFLIX ไม่เคยเอาโมเดลนี้มาใช้เลย
licensed-image.jpeg
ทำแล้วไม่คุ้มทุน ต้นทุนสูง
Bussiness model เปลี่ยนจากร้านเช่าหนัง 🎥→ streaming service
SLA (Service Level Agreement) โมเดลยิ่งซับซ้อนยิ่งใช้เวลาประมวลผลนาน

Case Study 4 : Cambridge Analytica


download.jpeg

สำหรับเคส Cambridge Analytica คือ กรณีศึกษาในการใช้ Data ในทางที่ผิด โดยที่ Cambridge Analytica เป็นบริษัทที่ให้บริการวิเคราะห์ข้อมูลและกลยุทธ์ทางการเมืองที่โด่งดังจากเรื่องอื้อฉาวเกี่ยวกับการใช้ข้อมูลส่วนตัวของบัญชีผู้ใช้งาน Facebook โดยไม่ได้รับความยินยอมอย่างถูกต้อง โดนได้มีการโฆษณาชวนเชื่อ (Propaganda)เพื่อที่จะทำให้คนหันมาในการรณรงค์หาเสียง ให้กับพรรคการเมือง เช่น การยิง post ในเชิงบวกเยอะให้กำผู้คนที่ไม่ชอบพรรคการเมืองนั้นๆ

81tgb3AaT7L._UF894,1000_QL80_.jpg
คือหนังสือที่บอก Idea เกี่ยวกับการใช้ Google Trend
ในการทำนายคนที่จะได้เป็นประธานาธิบดี ของอเมริกาได้โดยการ seaech🔍

Screenshot 2568-09-17 at 10.37.58.png


Case Study 5 : Moneyball

p8417791_p_v10_ag.jpg
หนังเรื่อง Moneyball มีไอเดียหลักที่โคตรเจ๋งและเกี่ยวกับการประยุกต์ใช้ Data กับทีมกีฬา คือแทนที่ทีมเบสบอล Oakland A ที่งบน้อยจะไปทุ่มเงินซื้อตัวผู้เล่นซุปเปอร์สตาร์แพงๆ เหมือนทีมรวยๆ โค้ช Billy Beane เลยไปจ้างนักเศรษฐศาสตร์ชื่อ Peter Brand มาช่วย
สิ่งที่ Peter Brand ทำคือใช้ ความรู้ด้านเศรษฐศาสตร์และสถิติ มาวิเคราะห์ข้อมูลผู้เล่นอย่างละเอียด แทนที่จะดูแค่สถิติพื้นๆ อย่างการตีโฮมรัน เขากลับไปดูข้อมูลที่ซับซ้อนกว่านั้น เพื่อหาผู้เล่นที่คนอื่นมองข้าม (underrated) แต่มีประสิทธิภาพสูง เช่น ผู้เล่นที่เดินได้บ่อย (On-base Percentage) หรือผู้เล่นที่ทำคะแนนได้โดยไม่จำเป็นต้องตีโฮมรันเสมอไป โดยที่ Peter Brand ใช้ Linear Regression เพื่อหาว่าสถิติไหนของผู้เล่นที่มีความสำคัญต่อการชนะของทีมมากที่สุด และใช้ข้อมูลนี้ในการหาผู้เล่นที่คนอื่นประเมินค่าต่ำไป ทำให้ทีม Oakland A สามารถสร้างทีมที่มีประสิทธิภาพในราคาที่ถูกกว่าทีมคู่แข่งมหาศาลละเก็บผลการแข็งขันชนะ 20 นัดติดต่อกัน ⚾ ซึ่งเป็นสถิติใหม่ของทีม Oakland A และเป็นสถิติสูงสุดในประวัติศาสตร์เบสบอลอเมริกาในขณะนั้น . การชนะรวด 20 นัดนี้ช่วยให้พวกเขาผ่านเข้ารอบเพลย์ออฟได้สำเร็จและทำให้ทีม Oakland A ที่ใช้กลยุทธ์แบบ Moneyball กลายเป็นที่รู้จักไปทั่วโลก และ เป็นที่มาของหนังเรื่องนี้นี่เอง

Screenshot 2568-09-17 at 11.21.30.png

สรุปปปป Data Scicence คือการรวมทักษะสำคัญ 3 ด้านเข้าด้วยกัน Generalism คือ การเขียนโค้ด (Programming), สถิติและคณิตศาสตร์ (Statistics & Math) และ ความเชี่ยวชาญในโดเมนธุรกิจ (Domain Expertise) เรามอง(perception) Data Scicence as skill เพื่อที่จะช่วยให้เราตัดสินใจได้ดีขึ้น
ท้ายสุดนี้ขอบคุณพี่ Toy DataRockie🐤 ที่ทำให้เกิดบทความนี้มา ละก็เพื่อนๆพี่ๆน้องใน community อาจารย์ ครอบครัว ละก็คนที่เข้ามาอ่านจนถึงตอนนี้ด้วยคับ


Reference

DataRockie. (n.d.). Intro to Data Science 101. [Lecture]. In Data Science Bootcamp 12. Teachable. สืบค้นเมื่อ วันที่ 13 กันยายน 2568 จาก

Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.