Explore

Intro to DataScience

Kittitouch Tantiwong

Recommend book

⁠

ROBIN HOOD MATH บอกไว้ว่าการที่เราจะใจเรื่อง DATA ไม่จำเป็นต้องจบ pure math แต่สิ่งที่สำคัญที่สุด คือ logic พื้นฐาน และกระบวนการคิดอย่างเป็นระบบ

⁠

ในหนังสือพูดถึง concept เรื่อง Numerification คือ ทุกอย่างหรือการการทำของเรานั้นจะสามารถเปลี่ยนเป็นเป็นตัวเลขได้ ยกตัวอย่างให้เห็นภาพ เช่น Socail Media Algorithms

⁠

พยามจะเก็บข้อมูลเราผ่าน ยอดการกด

⁠

, comment

⁠

, หรือ การ share

⁠

เพื่อที่จะไปทำการ scoring (การให้คะแนน) → หลังจากนั้นทำการranking เพื่อที่จะได้เลือกที่จะมา show บนหน้าจอเราในขณะที่เราไถหน้าจออยู่นั่นเอง (DOM Scolling)

Formula

⁠

V = ค่าที่

⁠

ได้กำหนดไว้ เหมือนในรูป เช่น 1,2,3

P = ค่าความน่าจะเป็นของการกด

⁠

, comment

⁠

, หรือ การ share

⁠

เหตุผลหลักที่ต้องการทำ scoring คือ

Adjust V

Estimate P

Maximize Your Sceen Time

⁠

Life Formula

ทุกกิจกรรมหรือทุกๆการกระทำของเราควรที่จะมีการ assign value ที่เป็นตัวเลขลงไปด้วย เพื่อที่เราจะได้เลือกในสิ่งที่สำคัญที่สุดสำหรับชีวิตเราก่อน และ ทุกๆการกระทำ เช่น การอ่านหนังสือ ควรที่จะมีการตั้งคำถาม เช่น concept หรือ idea เราจะสามารถนำมาประยุกต์ใช้ยังไงกับชีวิตเราได้บ้าง

Big Data

⁠

⁠

ที่เกริ่นมาจากข้างบนทั้งหมดนั้น คือสิ่งที่เรียกว่า DATA (สิ่งที่เกิดขึ้นมาบนโลกนี้ละถูกบันทึกไว้

⁠

เพื่อที่จะเอาไปต่อภายหลัง) โดยหลังๆนี้จะมี concept ที่เรียกว่า BIG DATA โดยที่ BIG DATA เกิดขึ้นได้เพราะ เรามี storage ที่เก็บข้อมูลได้เยอะขึ้น และ ราคาถูกลง โดยส่วนประกอบหลักจะประกอบด้วย

Volume (ใหญ่)

Velocity (เร็ว)

Variety (หลากหลาย)

⁠

What is Data Analytic ?

จากข้างบนเราจะเกิดคำถามว่าเราเก็บ Data ไปเพื่ออะไร ซึ่งคำตอบของคำถามนั้นก็คือเราเก็บ Data เพื่อที่ไปทำการ Analytic เราเปลี่ยน Data เป็น Insight เพื่อที่จะช่วยเราแก้ปัญหาหรือช่วยธุรกิจให้เติบโตไปข้างหน้าได้ดีมากขึ้น

โดยจะมี Framwork ที่นิยมใช้กันดังนี้

⁠

https://soulpageit.com/5-types-of-data-analytics-and-their-prominence/⁠

⁠

Descriptive Analytics (เมื่อวานเป็นอย่างไร?)

Dianostic Analytics (ทำไมถึงเกิดเรื่องนั้นขึ้น?)

Predictive Analytics (อนาคตจะเป็นอย่างไร?)

Presciptive Analytics (ควรทำไรเพื่อจะรับมือกับเรื่องที่จะเกิดขึ้น?)

Cognitive Analytics (เอาระบบหรือคอมพิวเตอร์มาเพื่อช่วยให้เราตัดสินใจได้ดีขึ้น)

Data Analyst Workflow

⁠

⁠

https://data-science-bootcamp1.teachable.com/courses/data-science-bootcamp-12/lectures/63094830⁠

⁠

โดยหน้าที่ของนัก Data ไม่ว่าจะเป็น Data Analyst หรือ Data Science คือการที่เราได้ดึงข้อมูลมาจาก Database มากเป็น CSV ละมาสร้าง Dashboad หรือ Model ต่างๆเพื่อที่จะช่วยแก้ปัญหาหรือซัพพอร์ตไปข้างหน้าได้ยิ่งขึ้น

⁠

CRISP-DM

⁠

https://www.ist.fraunhofer.de/en/expertise/simulation-digital-services/data-acquisition-model-based-process-optimization/crisp-dm-surface-technology.html⁠

⁠

CRISP-DM (Cross-Industry Standard Process for Data Mining) คือ Framwork ที่ข้างนิยมกันมากเวลาเราจะทำ Project Data Science ประกอบด้วย 6 ขั้นตอนหลัก :

Business Understanding (ทำความเข้าใจธุรกิจ)

Data Understanding (ทำความเข้าใจข้อมูล)

Data Preparation (การเตรียมข้อมูล)

Modeling (การสร้างแบบจำลอง)

Evaluation (การประเมินผล)

Deployment (การนำไปใช้)

⁠

Case Study 1 : TARGET

⁠

TARGET ต้องการที่จะ predict ผู้หญิงท้อง เพราะว่าผู้หญิงจะมีพฤติกรรมการซื้อสินค้าที่เปลี่ยนไปเมื่อรู้ตัวว่าตัวเองนั้นท้อง เช่น ต้องการซื้ออาหารเสริม หรือ วิตามินเพื่อมาดูและลูกในท้อง → โดย Obective ของ TARGET เพื่อที่จะสร้าง Life Time Value สำหรับลูกค้าคนนั้นเพื่อที่จะให้ลูกค้าซื้อสินค้าตลอด 9 เดือนที่เค้าตั้งท้อง

โดย Concept ที่ TARGET ใช้เราเรียกว่า Classification ML คือการ ที่เราเก็บที่เก็บ Dataset → แปลงเป็นความน่าจะเป็น → Classification (เปลี่ยนเป็นใช่ หรือ ไม่ใช่) → เราวัดผลด้วย Confusion Metrix

⁠

Case Study 2 : TESCO

⁠

TESCO ได้จ้างบริษัท Dunnhumny ในปี 1994 มาเพื่อเก็บ Data ซึ่งตอนนั้น TESCO ต้องการแย่งส่วนแบ่งตลาดมาจาก -Sainsbury's ซึ่งเป็นผู้นำ และได้เริ่มเก็บข้อมูลเพียงแค่ 5 คอลัมน์ ได้แก่ ID, วันที่, ยอดเงิน, สาขา, และลูกค้า จาก Data ที่เก็บมาTESCO สามารถระบุ Top Spender , Low Spender โดยการที่ลูกค้าคนไหนที่ใช้จ่ายซื้อของที่ TESCO มากสุดก็จะได้คูปองหรือส่วนลดที่เยอะกว่า ลูกค้าที่มีการใช้จ่ายน้อยกว่า โดยนอกจากนี้เค้ายังได้มีการ นำ Data มาเพื่อหา Insight อื่นๆเช่น เวลาไหนที่ลูกค้าจะเข้ามาซื้อของมากที่สุด หรือ สาขาไหนที่ลูกค้ามากสุด หรือ น้อยสุด

โดยการแค่เก็บ Data มาแค่ 5 คอลัมน์ ทำให้ TESCO สามารถกลับมาคลองส่วนแบ่งการตลาดเป็นอันดับ 1 เหนือ Sainsbury's ได้ในที่สุด

⁠

https://www.economist.com/britain/2014/07/26/tescopoly-no-more⁠

⁠

โดย TESCO ได้มีการนำเทคนิค Market Basket Analysis โดย idea ของโมเดลก็ไม่ได้ยากเลยคับ สมมุติว่าลูกค้าต้องการซื้อไข่🥚 โมเดลจะมีหน้าที่ในการบอกกับว่าว่าสินค้าถัดไปที่ลูกค้าจะซื้อเป็นกี่เปอร์เซ็น เช่น นม,ขนมปังโดยTESCOต้องการที่จะรู้ว่าสินค้ากลุ่มไหนที่จะถูกซื้อพร้อมกันบ่อยที่สุด

TESCOนำการวิเคราะห์นี้มาใช้เพื่อ:

การทำ (Bundle): เช่น จัดโปรโมชัน "ซื้อนมและขนมปังคู่กันในราคาพิเศษ" ซึ่งเป็นการกระตุ้นให้ลูกค้าซื้อสินค้าเพิ่มขึ้น

จัดวางสินค้าในร้าน(Planogram): วางสินค้าที่มักถูกซื้อคู่กันให้อยู่ใกล้ๆ กัน เช่น วางช็อกโกแลตไว้ใกล้กับกาแฟ เพื่อเพิ่มโอกาสในการซื้อสินค้าโดยไม่ได้ตั้งใจ (Impulse Buy)

การออกคูปองส่วนลดแบบเจาะจง: ส่งคูปองที่ตรงกับพฤติกรรมการซื้อของลูกค้าแต่ละคน เช่น ถ้าลูกค้าซื้อแชมพูยี่ห้อหนึ่งเป็นประจำ ก็จะส่งคูปองสำหรับครีมนวดผมยี่ห้อเดียวกันไปให้

⁠

การใช้ Market Basket Analysis ทำให้ TESCOสามารถเพิ่มยอดขายและสร้างประสบการณ์ที่ตรงใจลูกค้าได้มากกว่าแค่การให้ส่วนลดทั่วไป

Case Study 3 : Netflix

⁠

⁠

โดยในปี 2006 Reed Hastings ผู้ร่วมก่อตั้ง NETFLIX ได้มีการจัดการแข่งขันที่โด่งดังที่สุดชื่อว่า Netflix Prize เพื่อสร้างโมเดลระบบแนะนำหนังหรือซีรี่ย์

Netflix Prize คือการแข่งขันอะไร

⁠

NETFLIX ต้องการจัดการแข่งขันเพื่อหานักวิทยาศาสตร์ข้อมูล (data scientists) ที่จะมาช่วยเพิ่มความแม่นยำของระบบแนะนำหนังหรือซีรี่ย์ของพวกเขาให้ดีขึ้น โดยที่ทีมที่สามารถสร้างโมเดลทำนายที่มีความแม่นยำมากกว่าโมเดลเดิมของ NETFLIX (ที่ชื่อว่า Cinematch) ได้ถึง 10% จะได้รับเงินรางวัลใหญ่ถึง 1 ล้านดอลลาร์สหรัฐ

โดยทีมที่ชนะมีชื่อว่า BellKor's Pragmatic Chaos ซึ่งเป็นการรวมตัวกันของ 3 ทีมย่อยได้แก่:

BellKor: กลุ่มนักวิจัยจากบริษัท AT&T Labs

The Ensemble: กลุ่มนักวิทยาศาสตร์ข้อมูลและวิศวกรซอฟต์แวร์

Pragmatic Theory: กลุ่มนักวิจัยจากบริษัทในสวีเดน

พวกเขาเอาชนะโมเดลของ NETFLIX ได้ด้วยคะแนนความแม่นยำที่เหนือกว่าถึง 10.06% และได้รับเงินรางวัลไปในปี 2009 โดยเทคนิคที่พวกเค้าใช้เรียกว่า Ensemble Modeling ซึ่งเป็นการรวมเอาโมเดลระบบแนะนำหลายๆ ตัวเข้าด้วยกันเพื่อให้ได้ผลลัพธ์ที่แม่นยำที่สุด

แต่ประเด็นหลักๆก็คือ NETFLIX ไม่เคยเอาโมเดลนี้มาใช้เลย

⁠

ทำแล้วไม่คุ้มทุน ต้นทุนสูง

Bussiness model เปลี่ยนจากร้านเช่าหนัง 🎥→ streaming service

SLA (Service Level Agreement) โมเดลยิ่งซับซ้อนยิ่งใช้เวลาประมวลผลนาน

Case Study 4 : Cambridge Analytica

⁠

bbc.com/news/newsbeat-49085306⁠

⁠

สำหรับเคส Cambridge Analytica คือ กรณีศึกษาในการใช้ Data ในทางที่ผิด โดยที่ Cambridge Analytica เป็นบริษัทที่ให้บริการวิเคราะห์ข้อมูลและกลยุทธ์ทางการเมืองที่โด่งดังจากเรื่องอื้อฉาวเกี่ยวกับการใช้ข้อมูลส่วนตัวของบัญชีผู้ใช้งาน Facebook โดยไม่ได้รับความยินยอมอย่างถูกต้อง โดนได้มีการโฆษณาชวนเชื่อ (Propaganda)เพื่อที่จะทำให้คนหันมาในการรณรงค์หาเสียง ให้กับพรรคการเมือง เช่น การยิง post ในเชิงบวกเยอะให้กำผู้คนที่ไม่ชอบพรรคการเมืองนั้นๆ

⁠

⁠

คือหนังสือที่บอก Idea เกี่ยวกับการใช้ Google Trend

⁠

ในการทำนายคนที่จะได้เป็นประธานาธิบดี ของอเมริกาได้โดยการ seaech🔍

⁠

⁠

https://data-science-bootcamp1.teachable.com/courses/data-science-bootcamp-12/lectures/63094830⁠

⁠

Case Study 5 : Moneyball

⁠

หนังเรื่อง Moneyball มีไอเดียหลักที่โคตรเจ๋งและเกี่ยวกับการประยุกต์ใช้ Data กับทีมกีฬา คือแทนที่ทีมเบสบอล Oakland A ที่งบน้อยจะไปทุ่มเงินซื้อตัวผู้เล่นซุปเปอร์สตาร์แพงๆ เหมือนทีมรวยๆ โค้ช Billy Beane เลยไปจ้างนักเศรษฐศาสตร์ชื่อ Peter Brand มาช่วย

สิ่งที่ Peter Brand ทำคือใช้ ความรู้ด้านเศรษฐศาสตร์และสถิติ มาวิเคราะห์ข้อมูลผู้เล่นอย่างละเอียด แทนที่จะดูแค่สถิติพื้นๆ อย่างการตีโฮมรัน เขากลับไปดูข้อมูลที่ซับซ้อนกว่านั้น เพื่อหาผู้เล่นที่คนอื่นมองข้าม (underrated) แต่มีประสิทธิภาพสูง เช่น ผู้เล่นที่เดินได้บ่อย (On-base Percentage) หรือผู้เล่นที่ทำคะแนนได้โดยไม่จำเป็นต้องตีโฮมรันเสมอไป โดยที่ Peter Brand ใช้ Linear Regression เพื่อหาว่าสถิติไหนของผู้เล่นที่มีความสำคัญต่อการชนะของทีมมากที่สุด และใช้ข้อมูลนี้ในการหาผู้เล่นที่คนอื่นประเมินค่าต่ำไป ทำให้ทีม Oakland A สามารถสร้างทีมที่มีประสิทธิภาพในราคาที่ถูกกว่าทีมคู่แข่งมหาศาลละเก็บผลการแข็งขันชนะ 20 นัดติดต่อกัน ⚾ ซึ่งเป็นสถิติใหม่ของทีม Oakland A และเป็นสถิติสูงสุดในประวัติศาสตร์เบสบอลอเมริกาในขณะนั้น . การชนะรวด 20 นัดนี้ช่วยให้พวกเขาผ่านเข้ารอบเพลย์ออฟได้สำเร็จและทำให้ทีม Oakland A ที่ใช้กลยุทธ์แบบ Moneyball กลายเป็นที่รู้จักไปทั่วโลก และ เป็นที่มาของหนังเรื่องนี้นี่เอง

⁠

⁠

https://data-science-bootcamp1.teachable.com/courses/data-science-bootcamp-12/lectures/63094830⁠

⁠

สรุปปปป Data Scicence คือการรวมทักษะสำคัญ 3 ด้านเข้าด้วยกัน Generalism คือ การเขียนโค้ด (Programming), สถิติและคณิตศาสตร์ (Statistics & Math) และ ความเชี่ยวชาญในโดเมนธุรกิจ (Domain Expertise) เรามอง(perception) Data Scicence as skill เพื่อที่จะช่วยให้เราตัดสินใจได้ดีขึ้น

ท้ายสุดนี้ขอบคุณพี่ Toy DataRockie🐤 ที่ทำให้เกิดบทความนี้มา ละก็เพื่อนๆพี่ๆน้องใน community อาจารย์ ครอบครัว ละก็คนที่เข้ามาอ่านจนถึงตอนนี้ด้วยคับ

Reference

DataRockie. (n.d.). Intro to Data Science 101. [Lecture]. In Data Science Bootcamp 12. Teachable. สืบค้นเมื่อ วันที่ 13 กันยายน 2568 จาก

https://data-science-bootcamp1.teachable.com/courses/data-science-bootcamp-12/lectures/63094830⁠

⁠

Big Data

What is Data Analytic ?

Data Analyst Workflow

Case Study 1 : TARGET

Case Study 2 : TESCO

Case Study 3 : Netflix

Case Study 4 : Cambridge Analytica

Case Study 5 : Moneyball

Reference

Want to print your doc?
This is not the way.

Try clicking the ··· in the right corner or using a keyboard shortcut (

CtrlP

) instead.