Recommend book
ROBIN HOOD MATH บอกไว้ว่าการที่เราจะใจเรื่อง DATA ไม่จำเป็นต้องจบ pure math แต่สิ่งที่สำคัญที่สุด คือ logic พื้นฐาน และกระบวนการคิดอย่างเป็นระบบ
ในหนังสือพูดถึง concept เรื่อง Numerification คือ ทุกอย่างหรือการการทำของเรานั้นจะสามารถเปลี่ยนเป็นเป็นตัวเลขได้ ยกตัวอย่างให้เห็นภาพ เช่น Socail Media Algorithms พยามจะเก็บข้อมูลเราผ่าน ยอดการกด , comment, หรือ การ share เพื่อที่จะไปทำการ scoring (การให้คะแนน) → หลังจากนั้นทำการranking เพื่อที่จะได้เลือกที่จะมา show บนหน้าจอเราในขณะที่เราไถหน้าจออยู่นั่นเอง (DOM Scolling) Formula
V = ค่าที่ ได้กำหนดไว้ เหมือนในรูป เช่น 1,2,3 P = ค่าความน่าจะเป็นของการกด , comment, หรือ การ share
เหตุผลหลักที่ต้องการทำ scoring คือ
Life Formula
ทุกกิจกรรมหรือทุกๆการกระทำของเราควรที่จะมีการ assign value ที่เป็นตัวเลขลงไปด้วย เพื่อที่เราจะได้เลือกในสิ่งที่สำคัญที่สุดสำหรับชีวิตเราก่อน และ ทุกๆการกระทำ เช่น การอ่านหนังสือ ควรที่จะมีการตั้งคำถาม เช่น concept หรือ idea เราจะสามารถนำมาประยุกต์ใช้ยังไงกับชีวิตเราได้บ้าง
Big Data
ที่เกริ่นมาจากข้างบนทั้งหมดนั้น คือสิ่งที่เรียกว่า DATA (สิ่งที่เกิดขึ้นมาบนโลกนี้ละถูกบันทึกไว้ เพื่อที่จะเอาไปต่อภายหลัง) โดยหลังๆนี้จะมี concept ที่เรียกว่า BIG DATA โดยที่ BIG DATA เกิดขึ้นได้เพราะ เรามี storage ที่เก็บข้อมูลได้เยอะขึ้น และ ราคาถูกลง โดยส่วนประกอบหลักจะประกอบด้วย
What is Data Analytic ?
จากข้างบนเราจะเกิดคำถามว่าเราเก็บ Data ไปเพื่ออะไร ซึ่งคำตอบของคำถามนั้นก็คือเราเก็บ Data เพื่อที่ไปทำการ Analytic เราเปลี่ยน Data เป็น Insight เพื่อที่จะช่วยเราแก้ปัญหาหรือช่วยธุรกิจให้เติบโตไปข้างหน้าได้ดีมากขึ้น
โดยจะมี Framwork ที่นิยมใช้กันดังนี้
Descriptive Analytics (เมื่อวานเป็นอย่างไร?) Dianostic Analytics (ทำไมถึงเกิดเรื่องนั้นขึ้น?) Predictive Analytics (อนาคตจะเป็นอย่างไร?) Presciptive Analytics (ควรทำไรเพื่อจะรับมือกับเรื่องที่จะเกิดขึ้น?) Cognitive Analytics (เอาระบบหรือคอมพิวเตอร์มาเพื่อช่วยให้เราตัดสินใจได้ดีขึ้น)
Data Analyst Workflow
โดยหน้าที่ของนัก Data ไม่ว่าจะเป็น Data Analyst หรือ Data Science คือการที่เราได้ดึงข้อมูลมาจาก Database มากเป็น CSV ละมาสร้าง Dashboad หรือ Model ต่างๆเพื่อที่จะช่วยแก้ปัญหาหรือซัพพอร์ตไปข้างหน้าได้ยิ่งขึ้น
CRISP-DM
CRISP-DM (Cross-Industry Standard Process for Data Mining) คือ Framwork ที่ข้างนิยมกันมากเวลาเราจะทำ Project Data Science ประกอบด้วย 6 ขั้นตอนหลัก :
Business Understanding (ทำความเข้าใจธุรกิจ) Data Understanding (ทำความเข้าใจข้อมูล) Data Preparation (การเตรียมข้อมูล) Modeling (การสร้างแบบจำลอง) Evaluation (การประเมินผล)
Case Study 1 : TARGET
TARGET ต้องการที่จะ predict ผู้หญิงท้อง เพราะว่าผู้หญิงจะมีพฤติกรรมการซื้อสินค้าที่เปลี่ยนไปเมื่อรู้ตัวว่าตัวเองนั้นท้อง เช่น ต้องการซื้ออาหารเสริม หรือ วิตามินเพื่อมาดูและลูกในท้อง → โดย Obective ของ TARGET เพื่อที่จะสร้าง Life Time Value สำหรับลูกค้าคนนั้นเพื่อที่จะให้ลูกค้าซื้อสินค้าตลอด 9 เดือนที่เค้าตั้งท้อง
โดย Concept ที่ TARGET ใช้เราเรียกว่า Classification ML คือการ ที่เราเก็บที่เก็บ Dataset → แปลงเป็นความน่าจะเป็น → Classification (เปลี่ยนเป็นใช่ หรือ ไม่ใช่) → เราวัดผลด้วย Confusion Metrix
Case Study 2 : TESCO
TESCO ได้จ้างบริษัท Dunnhumny ในปี 1994 มาเพื่อเก็บ Data ซึ่งตอนนั้น TESCO ต้องการแย่งส่วนแบ่งตลาดมาจาก -Sainsbury's ซึ่งเป็นผู้นำ และได้เริ่มเก็บข้อมูลเพียงแค่ 5 คอลัมน์ ได้แก่ ID, วันที่, ยอดเงิน, สาขา, และลูกค้า จาก Data ที่เก็บมาTESCO สามารถระบุ Top Spender , Low Spender โดยการที่ลูกค้าคนไหนที่ใช้จ่ายซื้อของที่ TESCO มากสุดก็จะได้คูปองหรือส่วนลดที่เยอะกว่า ลูกค้าที่มีการใช้จ่ายน้อยกว่า โดยนอกจากนี้เค้ายังได้มีการ นำ Data มาเพื่อหา Insight อื่นๆเช่น เวลาไหนที่ลูกค้าจะเข้ามาซื้อของมากที่สุด หรือ สาขาไหนที่ลูกค้ามากสุด หรือ น้อยสุด
โดยการแค่เก็บ Data มาแค่ 5 คอลัมน์ ทำให้ TESCO สามารถกลับมาคลองส่วนแบ่งการตลาดเป็นอันดับ 1 เหนือ Sainsbury's ได้ในที่สุด
โดย TESCO ได้มีการนำเทคนิค Market Basket Analysis โดย idea ของโมเดลก็ไม่ได้ยากเลยคับ สมมุติว่าลูกค้าต้องการซื้อไข่🥚 โมเดลจะมีหน้าที่ในการบอกกับว่าว่าสินค้าถัดไปที่ลูกค้าจะซื้อเป็นกี่เปอร์เซ็น เช่น นม,ขนมปังโดยTESCOต้องการที่จะรู้ว่าสินค้ากลุ่มไหนที่จะถูกซื้อพร้อมกันบ่อยที่สุด
TESCOนำการวิเคราะห์นี้มาใช้เพื่อ:
การทำ (Bundle): เช่น จัดโปรโมชัน "ซื้อนมและขนมปังคู่กันในราคาพิเศษ" ซึ่งเป็นการกระตุ้นให้ลูกค้าซื้อสินค้าเพิ่มขึ้น จัดวางสินค้าในร้าน(Planogram): วางสินค้าที่มักถูกซื้อคู่กันให้อยู่ใกล้ๆ กัน เช่น วางช็อกโกแลตไว้ใกล้กับกาแฟ เพื่อเพิ่มโอกาสในการซื้อสินค้าโดยไม่ได้ตั้งใจ (Impulse Buy) การออกคูปองส่วนลดแบบเจาะจง: ส่งคูปองที่ตรงกับพฤติกรรมการซื้อของลูกค้าแต่ละคน เช่น ถ้าลูกค้าซื้อแชมพูยี่ห้อหนึ่งเป็นประจำ ก็จะส่งคูปองสำหรับครีมนวดผมยี่ห้อเดียวกันไปให้ การใช้ Market Basket Analysis ทำให้ TESCOสามารถเพิ่มยอดขายและสร้างประสบการณ์ที่ตรงใจลูกค้าได้มากกว่าแค่การให้ส่วนลดทั่วไป
Case Study 3 : Netflix
โดยในปี 2006 Reed Hastings ผู้ร่วมก่อตั้ง NETFLIX ได้มีการจัดการแข่งขันที่โด่งดังที่สุดชื่อว่า Netflix Prize เพื่อสร้างโมเดลระบบแนะนำหนังหรือซีรี่ย์
Netflix Prize คือการแข่งขันอะไร
NETFLIX ต้องการจัดการแข่งขันเพื่อหานักวิทยาศาสตร์ข้อมูล (data scientists) ที่จะมาช่วยเพิ่มความแม่นยำของระบบแนะนำหนังหรือซีรี่ย์ของพวกเขาให้ดีขึ้น โดยที่ทีมที่สามารถสร้างโมเดลทำนายที่มีความแม่นยำมากกว่าโมเดลเดิมของ NETFLIX (ที่ชื่อว่า Cinematch) ได้ถึง 10% จะได้รับเงินรางวัลใหญ่ถึง 1 ล้านดอลลาร์สหรัฐ
โดยทีมที่ชนะมีชื่อว่า BellKor's Pragmatic Chaos ซึ่งเป็นการรวมตัวกันของ 3 ทีมย่อยได้แก่:
BellKor: กลุ่มนักวิจัยจากบริษัท AT&T Labs The Ensemble: กลุ่มนักวิทยาศาสตร์ข้อมูลและวิศวกรซอฟต์แวร์ Pragmatic Theory: กลุ่มนักวิจัยจากบริษัทในสวีเดน พวกเขาเอาชนะโมเดลของ NETFLIX ได้ด้วยคะแนนความแม่นยำที่เหนือกว่าถึง 10.06% และได้รับเงินรางวัลไปในปี 2009 โดยเทคนิคที่พวกเค้าใช้เรียกว่า Ensemble Modeling ซึ่งเป็นการรวมเอาโมเดลระบบแนะนำหลายๆ ตัวเข้าด้วยกันเพื่อให้ได้ผลลัพธ์ที่แม่นยำที่สุด
แต่ประเด็นหลักๆก็คือ NETFLIX ไม่เคยเอาโมเดลนี้มาใช้เลย
ทำแล้วไม่คุ้มทุน ต้นทุนสูง Bussiness model เปลี่ยนจากร้านเช่าหนัง 🎥→ streaming service SLA (Service Level Agreement) โมเดลยิ่งซับซ้อนยิ่งใช้เวลาประมวลผลนาน
Case Study 4 : Cambridge Analytica
สำหรับเคส Cambridge Analytica คือ กรณีศึกษาในการใช้ Data ในทางที่ผิด โดยที่ Cambridge Analytica เป็นบริษัทที่ให้บริการวิเคราะห์ข้อมูลและกลยุทธ์ทางการเมืองที่โด่งดังจากเรื่องอื้อฉาวเกี่ยวกับการใช้ข้อมูลส่วนตัวของบัญชีผู้ใช้งาน Facebook โดยไม่ได้รับความยินยอมอย่างถูกต้อง โดนได้มีการโฆษณาชวนเชื่อ (Propaganda)เพื่อที่จะทำให้คนหันมาในการรณรงค์หาเสียง ให้กับพรรคการเมือง เช่น การยิง post ในเชิงบวกเยอะให้กำผู้คนที่ไม่ชอบพรรคการเมืองนั้นๆ
คือหนังสือที่บอก Idea เกี่ยวกับการใช้ Google Trend ในการทำนายคนที่จะได้เป็นประธานาธิบดี ของอเมริกาได้โดยการ seaech🔍
Case Study 5 : Moneyball
หนังเรื่อง Moneyball มีไอเดียหลักที่โคตรเจ๋งและเกี่ยวกับการประยุกต์ใช้ Data กับทีมกีฬา คือแทนที่ทีมเบสบอล Oakland A ที่งบน้อยจะไปทุ่มเงินซื้อตัวผู้เล่นซุปเปอร์สตาร์แพงๆ เหมือนทีมรวยๆ โค้ช Billy Beane เลยไปจ้างนักเศรษฐศาสตร์ชื่อ Peter Brand มาช่วย
สิ่งที่ Peter Brand ทำคือใช้ ความรู้ด้านเศรษฐศาสตร์และสถิติ มาวิเคราะห์ข้อมูลผู้เล่นอย่างละเอียด แทนที่จะดูแค่สถิติพื้นๆ อย่างการตีโฮมรัน เขากลับไปดูข้อมูลที่ซับซ้อนกว่านั้น เพื่อหาผู้เล่นที่คนอื่นมองข้าม (underrated) แต่มีประสิทธิภาพสูง เช่น ผู้เล่นที่เดินได้บ่อย (On-base Percentage) หรือผู้เล่นที่ทำคะแนนได้โดยไม่จำเป็นต้องตีโฮมรันเสมอไป โดยที่ Peter Brand ใช้ Linear Regression เพื่อหาว่าสถิติไหนของผู้เล่นที่มีความสำคัญต่อการชนะของทีมมากที่สุด และใช้ข้อมูลนี้ในการหาผู้เล่นที่คนอื่นประเมินค่าต่ำไป ทำให้ทีม Oakland A สามารถสร้างทีมที่มีประสิทธิภาพในราคาที่ถูกกว่าทีมคู่แข่งมหาศาลละเก็บผลการแข็งขันชนะ 20 นัดติดต่อกัน ⚾ ซึ่งเป็นสถิติใหม่ของทีม Oakland A และเป็นสถิติสูงสุดในประวัติศาสตร์เบสบอลอเมริกาในขณะนั้น . การชนะรวด 20 นัดนี้ช่วยให้พวกเขาผ่านเข้ารอบเพลย์ออฟได้สำเร็จและทำให้ทีม Oakland A ที่ใช้กลยุทธ์แบบ Moneyball กลายเป็นที่รู้จักไปทั่วโลก และ เป็นที่มาของหนังเรื่องนี้นี่เอง
สรุปปปป Data Scicence คือการรวมทักษะสำคัญ 3 ด้านเข้าด้วยกัน Generalism คือ การเขียนโค้ด (Programming), สถิติและคณิตศาสตร์ (Statistics & Math) และ ความเชี่ยวชาญในโดเมนธุรกิจ (Domain Expertise) เรามอง(perception) Data Scicence as skill เพื่อที่จะช่วยให้เราตัดสินใจได้ดีขึ้น
ท้ายสุดนี้ขอบคุณพี่ Toy DataRockie🐤 ที่ทำให้เกิดบทความนี้มา ละก็เพื่อนๆพี่ๆน้องใน community อาจารย์ ครอบครัว ละก็คนที่เข้ามาอ่านจนถึงตอนนี้ด้วยคับ
Reference
DataRockie. (n.d.). Intro to Data Science 101. [Lecture]. In Data Science Bootcamp 12. Teachable. สืบค้นเมื่อ วันที่ 13 กันยายน 2568 จาก