Skip to content

Live 01 - Intro to Data Science 101

image.png
Data Science ไม่จำเป็นต้องจบ Pure Math แค่เข้าใจ Logic พื้นฐานก็พอแล้ว
image.png
light

สิ่งที่พวกเราทำตอนนี้ถูกเปลี่ยนให้กลายเป็นตัวเลข

ตอนนี้ชีวิตของเราถูกเปลี่ยนให้กลายเป็นตัวเลขทั้งหมด คุณค่าของชีวิตเรากลายเป็นตัวเลข
เศรษฐี ถูกวัดด้วยมูลค่าสินทรัพย์ หรือ Networth
เวลาไปสมัครบัตรเครดิตธนาคารก็จะทำ Credit Scoring
image.png
Platform social media ต่างๆก็มีเกณฑ์การให้คะแนนของ Activity ผู้ใช้งานเพื่อส่ง Feed หรือ Content ให้ตรงใจผู้ใช้งาน
image.png
ซึ่ง Activity นั้นๆถูกคำนวณด้วย Algorithm เช่นของ Meta (Facebook)
image.png
โดยค่า Value (V.) จะเป็นค่าที่ถูกประเมินโดย Facebook ว่าควรจะเป็นเท่าไรในการทำกิจกรรม เช่น 5 สำหรับการ Comment
image.png
Probability (P.) เป็น Action จริงๆที่เราเป็นคนทำ เช่นเราเป็นคนกด Like รูปแมวดำน่ารักๆใน IG
image.png
Score หรือคะแนนที่ได้จะมาจากค่าที่ระบบตั้งไว้ V. คูณด้วย Action จริงๆของเรา P.
image.png
ถ้ามีอยู่สองภาพและระบบคำนวณมาแบบนี้
Facebook จะเลือกเอาภาพที่ Score เยอะขึ้นมาโชว์ก่อน
Fuji Scoring
Action
Value
Probability
Score
Like
1
0.2
0.2
Comment
5
0.5
2.5
Share
20
0.3
6
There are no rows in this table
Sum of Score from Fuji is
8.7
Points
Dog Scoring
Action
Value
Probability
Score
Like
1
0.3
0.3
Comment
5
0.2
1
Share
20
0.2
4
There are no rows in this table
Sum of Score from Dog is
5.3
Points
ถ้าเป็นในเคสที่ยกตัวอย่างนี้ Fuji (8.7) > Dog (5.3)
Facebook จะเลือกโชว์ Fuji ขึ้นมาก่อนแล้วต่อด้วยภาพของหมา
megaphone

ซึ่งวิธีการแบบนี้จะเรียกว่า Doomscolling หรือความล้มสลายของการปัดนิ้ว

Concept นี้มาจากการสับ Slot ใน Casino ถ้าเกิดว่าไม่ออกตามต้องการก็แค่สับใหม่
image.png
สิ่งที่ Platform ต้องการ
ปรับค่า V ให้มีความเที่ยงตรงยิ่งขึ้น
ประเมินค่า P ให้ดียิ่งขึ้น
เพื่อเพิ่มเวลาที่จะใช้อยู่ใน Platform นั้นๆให้ได้นานที่สุด
image.png
เราเปลี่ยนค่า V ไม่ได้ แต่เราเปลี่ยนค่า P ได้
ฉะนั้นเราก็ต้องสร้าง Action ที่มันมีประโยชน์เพื่อให้ Algorithm แสดงที่สิ่งที่มีประโยชน์ต่อชีวิต
filled-star

The Life Formula เรานำสิ่งที่ Platform ประเมินมาประยุคใช้กับชีวิตของเรา

โดยเราจะกำหนด Activity ต่างๆในชีวิตและให้ Value ของการทำ Activity นั้นๆ
สุดท้ายแล้วนำมาประเมินผ่าน Probability และนำ Scoring มาดูผลที่ได้ในแต่ละวัน
The Life Formula
Action
Value
Probability
Score
Reading
50
0.1
5
Writing
40
0.3
12
Social Media
-20
0.6
-12
Dota 2
-50
0.4
-20
Exercise
80
0.2
16
There are no rows in this table
Sum of Score from The Life Formula is
1
Points
เราควรทำให้ในแต่ละวันของเรามีค่า Score ที่มาก
image.png

Big Data

คือจำนวนข้อมูลขนาดใหญ่ที่ถูกนำมาใช้ในวัตถุประสงค์ต่างๆ เช่น Train AI หรือว่าการพยากรณ์ยอดขาย
image.png
องค์ประกอบหลักของ Big Data จะมี 5 V
Volume หมายถึงปริมาณของ Data ที่มี (Size)
Velocity หมายถึงความไวในการเก็บข้อมูล (Speed)
Variety หมายถึงความหลากหลายของข้อมูล (Diversity)
Veracity หมายถึงคุณภาพและความน่าเชื่อถือของข้อมูล (Quality)
Value หมายถึงความสำคัญของข้อมูลที่มีผลต่อภาคธุรกิจ (Insight)
Memory
image.png
สิ่งสำคัญที่ทำให้มนุษย์มี Big Data คือ Memory ของ Computer ที่พัฒนามาไกลมาก
Data คือข้อมูลที่เกิดขึ้นมาแล้วถูกบันทึกไว้ เพื่อทำให้เกิดคุณค่าในอนาคตได้
แม้แต่ข้อมูลในหัวก็ถือว่าเป็น Data ซึ่งสมองของเรานั้นซับซ้อน เวลาเราดึงข้อมูลออกมามันไม่ได้แยกเป็น Folder แต่เป็นการ Recall ความทรงจำนั้นๆ ซึ่งในบางครั้งก็เป็นความทรงจำที่ผิดพลาดหรือที่เรียกว่า False Memory
image.png

การใช้งาน Big Data

image.png
Big Data หรือข้อมูลที่เก็บมาหลายๆ TB จริงๆแล้วก็ไม่ได้ใช้เยอะขนาดนั้น
อาจจะใช้แค่ 10% และข้อมูลเหล่านั้นสามารถ Train Model ด้วย Computer ส่วนตัวได้เลย
ไม่จำเป็นต้องใช้ Computer ที่มี CPU หรือ GPU ที่มีสเปคสูงๆ

Data Structure

image.png
หน้าที่ของทีม Data คือการนำข้อมูลต่างๆมา Extricate และทำให้มันมี Structure เพื่อที่จะสามารถนำมาใช้งานได้
image.png

Data Analytics คืออะไร?

image.png
การวิเคราะห์ข้อมูลคือการนำข้อมูลดิบไปสร้าง Insight เพื่อนำมาใช้ในการตัดสินใจ
Raw data to insight for making informed decisions (Raw Data > Insight > Decision)
image.png
Phases of Analytics
Descriptive Analytics = การอธิบายว่าสิ่งที่เกิดขึ้นนั้นคืออะไร
Diagnostic Analytics = การวินิจฉัยว่าทำไมสิ่งนั้นถึงเกิดขึ้น
Predictive Analytics = การพยากรณ์ว่าอะไรจะเกิดขึ้นต่อไป
Prescriptive Analytics = การสร้างแนวทางปฏิบัติหรือตัดสินใจกับสิ่งที่จะเกิดขึ้นในอนาคต
Phase of Analytics by Microsoft
image.png
Microsoft บอกว่าเราจะมี Phase ที่ 5 นั้นก็คือการใช้ Computer มาช่วยมนุษย์คิดซึ่งมันก็คือ AI ในปัจจุบัน
ปล. Microsoft พูดถึงสิ่งนี้เมื่อปี 2012 เลยใช้คำว่า Computer - Applied Human Intelligence
image.png
ทุกวันนี้โลกเรากำลังไปสู่การมี AGI แต่ AI ที่เราใช้ทุกวันนี้คือ ANI
AGI stands for Artificial General Intelligence หรือก็คือ AI ที่ทำได้ทุกอย่าง ขับรถ, ทำอาหาร, วาดรูป
ANI stands for Artificial Narrow Intelligence หรือก็คือ AI ที่เราใช้ทุกวันนี้ ซึ่งก็ทำได้แค่อย่างใดอย่างหนึ่ง
image.png
Andrew Ng ให้ทีมสมัยเขาอยู่ Google Brain วิเคราะห์ YouTube Thumbnail ว่าแต่ละคลิปใช้ภาพอะไรบ้าง โดยใช้ 10 million YouTube clips ซึ่งใช้เวลาไม่นานก็ประมวลผลออกมาว่าเป็นภาพแมว
หรือก็คือใน 10 ล้านคลิป แมวถูกใช้เป็นภาพ Thumbnail มากที่สุด
นี่คือความสำคัญของสมองกล Computer เข้ามามีบทบาทใน Phase ที่ 5 เพราะว่ามนุษย์ไม่สามารถหา Pattern ในข้อมูลที่เยอะขนาดนี้ โดยใช้เวลาเพียงเล็กน้อยเท่านั้น
image.png
Scope ของสายงาน Data เมื่อเทียบกับ Phase of Analysis
สีเขียวใช้ Domain Knowledge เยอะมาก มันคือการนำ 3 วงก่อนหน้า + ความรู้ทางด้านธุรกิจ
What should we do about this?
image.png
คอร์สนี้จะ Focus ที่ Data Science (Data Science as a skilled)

Case Study

filled-star
Case 1 - Target Pregnancy Scoring
image.png
Target ระบุสินค้าที่มีการซื้อในหมู่ผู้หญิงตั้งครรภ์ ในทาง Data Science เรียกสินค้าเหล่านี้ว่า Signal เพื่อไปใช้ทำ Prediction
image.png
ซึ่งเมื่อเราได้ค่ามาก็จะนำข้อมูลเหล่านี้มาสร้าง Probability
image.png
และนำมาสู่การสร้าง Action ที่อาจจะต้องพูดคุยกับหลายๆทีมเช่น ทีมการตลาดว่าเราจะส่บคูปองส่วนลดสำหรับคนที่มีเกณฑ์ ว่าจะเป็นผู้ที่ตั้งครรภ์ตั้งแต่ความน่าจะเป็นที่เท่าไร (Decision) ซึ่งแน่นอนว่ามันจะต้องมีต้นทุนค่าใช้จ่าย
ถ้าอยากกระจายให้ได้เยอะๆอาจจะต้องลด % ของ Probability แต่ถ้าอยากให้แม่นต้องเพิ่ม % Probability
การ Prediction บอกได้แค่ความน่าจะเป็น ไม่ได้ตอบว่า Yes หรือ No
image.png
ผลการพยากรณ์เทียบกับความเป็นจริง จะเห็นว่า No-No (True Negative), Yes-Yes (True Positive) มีค่าที่ใกล้เคียงกับ n แปลว่า Model ของเรานั้นมีประสิทธิภาพ
Binary Classification คือการเปลี่ยนข้อมูลเป็นคำถามที่ตอบได้แค่ Yes หรือว่า No
filled-star
Case 2 - Tesco
image.png
ปี 1994 มีบริษัท Dunnhumby ที่เข้ามาเป็นที่ปรึกษาของบริษัท Tesco ที่ในช่วงขณะนั้นเป็น Supermarket เบอร์ 2 ของ UK
image.png
การเข้ามาของ Dunnhumby ทำให้มีการสร้าง Club Card เพื่อเก็บข้อมูลเพียง 5 Columns ในการวิเคราะห์ข้อมูลของลูกค้า และนำข้อมูลเหล่านั้นมา Classification ประเภทของลูกค้า โดยเรียงจาก Amount ของลูกค้าแต่ละคน
ลูกค้าที่จ่ายเยอะ (High Spender) > Value Customer
ลูกค้าที่จ่ายน้อย (Low Spender) > Low Value Customer
ลูกค้าที่จ่ายเยอะก็ควรจะได้คูปองหรือส่วนลดที่มากกว่าลูกค้าที่จ่ายน้อย

image.png

ท่าน Lord กล่าวประโยคที่ Classic เป็นการบ่งบอกถึงความมหัศจรรย์และน่ากลัวของข้อมูล
เขาทำงานมา 30 ปี แต่รู้จักลูกค้าน้อยกว่า Dunnhumby ที่ทำในระยะเวลา 3 เดือน
image.png
ตั้งแต่วันนั้นมา Tesco ก็เป็นที่ 1 มาตลอด
info

Business Understanding to Questionnaire in Data

image.png
การตั้งคำถามเป็นสิ่งสำคัญ และใช้ข้อมูลในการตอบคำถาม
อย่างในภาพ ขนมปังขายดีสุด คำถามต่อมา แล้วขนมปังขายคู่กับอะไรดีที่สุด?
ก็ต้องใช้วิธีการคิดว่าขนมปังคู่กับอะไรได้บ้างในภาพนี้
Bread-Milk, Bread-Egg, Bread-Meat, Bread-Beer
ถ้ามองจากภาพแล้วจะเห็นว่า Bread-Milk เยอะสุดเลย 3/4 ลูกค้าที่ซื้อขนมปังจะซื้อนมเสมอ
ความเข้าใจธุรกิจนำมาสู่การตั้งคำถามเพื่อใช้ข้อมูลไปสร้างคุณค่าต่างๆ
image.png
Big Data บอกได้แค่ว่า 3/4 กินขนมปังคู่กับนม
แต่ Small Data คือการคุยกับลูกค้าจริงๆ เป็นการถามลูกค้าโดยตรงว่าทำไมถึงซื้อขนมปังคู่กับนม มันดียังไง
ซึ่งเราใช้ทั้ง Big Data และ Small Data คู่กันจะทำให้โปรเจคประสบความสำเร็จ
filled-star
Case 3 - Netflix Prize
image.png
ในปี 2006 Netflix ทำ Competition ขึ้นมาให้สร้าง Model ที่แนะนำหนังให้ดีกว่าที่ Netflix ทำ
ใครก็ตามที่ใครทำ Model ที่แนะนำหนังได้ดีกว่า Netflix มากกว่า 10 Point ขึ้นไปจะเป็นผู้ชนะ
image.png
มีการแข่งขันมาตั้งแต่ปี 2006 จนกระทั่ง 2009 ก็ได้ผู้ชนะออกมา
ซึ่งผู้ชนะเหล่านี้แท้จริงแล้วคือผู้เล่นที่อยู่ระดับ Top 5 คนที่เคยแข่งขันกัน
ตัดสินใจมารวมทีมกันและนำ Model แต่ละคนมารวมกันโดยใช้หลักการว่าให้ Model แต่ละคนส่งผลออกมา
ถ้า Model มี Decision ว่าจะแนะนำหนังให้ลูกค้าตั้งแต่ 3 Models ขึ้นไปจะแนะนำหนังนั้นให้ลูกค้าจริงๆบน Platform
Weak Classifier เมื่อรวมกันแล้วจะกลายเป็น Strong Classifier (Generalist)
image.png
ถึงแม้ว่า Netflix จะทุ่มเงินไป $1M แต่ก็ไม่ได้ใช้งาน Model นี้ เนื่องจากว่ามีต้นทุนที่เยอะเกินกว่า Value ที่ได้
image.png
คุณค่าที่ได้จากการ Model ดีขึ้นไม่กี่ % ถือว่าน้อยมากเมื่อเทียบกับราคาที่ต้องจ่าย
เพราะการเปลี่ยน Model ไปใช้แบบทีมที่ชนะรางวัลนั้นมีต้นทุนที่สูงมาก แถมการประมวลผลก็ไม่ตรงตาม SLA
อาจจะแม่นกว่าในเชิงประสิทธิภาพ แต่ใช้ระยะเวลานานกว่าเพราะมี 5 Models จะต้องคิดและตัดสินใจ
ซึ่ง Netflix ตั้ง SLA ไว้ที่ 3 วินาที แต่ Model นี้อาจจะใช้เวลา 4 วินาทีหรือมากกว่าเพื่อประมวลผลแนะนำหนังให้ลูกค้า
นอกเหนือจากนี้ธุรกิจของ Netflix ในตอนนั้นก็เปลี่ยนอีกด้วย จาก Video Rental สู่ Streaming Platform
note

สรุปเหตุผลที่ Netflix ไม่ได้ใช้ Model

ต้นทุนในการเปลี่ยนแปลง Model สูงมาก
SLA ไม่ผ่าน
Business Model ของ Netflix เปลี่ยน
ความแม่นยำ (Accuracy) ไม่ใช่ปัจจัยทั้งหมดในการทำงานจริง
Bootcamp Expectation
image.png
DA ของ Bootcamp นี้คือเป็นคนๆนี้ นำข้อมูลจาก Database > ทำเป็นข้อมูล CSV > ทำ Dashboard
IBM’s Framework
image.png
Business Understanding > เข้าใจธุรกิจว่าเป็นยังไง มีปัญหาอะไร อะไรคือสิ่งที่จะทำให้เติบโต
Data Understanding > เข้าใจข้อมูลที่เรามี ข้อมูลพวกนี้ต่อยอดยังไง ถ้าจะแก้ปัญหาต้องใช้ข้อมูลไหนเพิ่มบ้าง
Data Preparation > การเตรียมข้อมูล หรือการ Cleaning Data เพื่อใช้ในการทำขั้นตอนต่อไป
Modeling > ทำ Model เพื่อพยากรณ์หรือนำค่าพวกนี้มาใช้เพื่อตอบโจทย์ธุรกิจ
Evaluation > ประเมินว่า Model ที่ทำมานั้นให้ผลลัพธ์ที่สามารถตอบโจทย์ธุรกิจได้หรือไม่
Deployment > นำ Model นี้ไปใช้งานจริง
filled-star

Case 4 - Cambridge Analytica

การใช้ Data ในทางที่ผิด
image.png
คือ Project ที่ Trump ให้บริษัทที่ชื่อว่า Cambridge Analytica เป็นที่ปรึกษาในการหาเสียง บริษัทนี้ใช้ข้อมูลจาก Meta ที่เก็บข้อมูลการเล่นเกมเพื่อทายอัตลักษณ์ต่างๆ และนำมาวิเคราะห์ลักษณะนิสัยของบุคคลนั้นๆ โดยบุคคลที่ง่ายต่อการชักนำก็จะถูกยิง Ads ให้เห็นข่าวด้านดีๆของ Trump หรือใส่ร้ายป้ายสีพรรคฟังตรงข้าม เพื่อให้ Trump และพรรคของเขาได้เสียงส่วนมากและถูกโหวดเข้าสภาและเป็นประธานาธิบดี
image.png
ในหนังสือเล่มนี้อธิบายไว้ว่า ถ้าอยากรู้ว่าใครเป็นประธานาธิบดี สามารถดูได้จาก Google Analytic ได้เลย
image.png
ตัวอย่างข้อมูลของปี 2016 จะพบว่า Donald Trump มีการ Search ที่เยอะมากกว่าจริงๆ และชนะเลือกตั้งจริงๆด้วย
filled-star

Final Case - Moneyball

image.png
Oakland A's ทีม Baseball ที่อยู่อันดับท้ายสุดของตาราง และถูกทีมอื่นๆซื้อผู้เล่นดีๆไปหมดเลย
Billy Beane ก็ได้นำเงินก้อนหนึ่งไปซื้อตัวผู้เล่นมา แต่ผู้เล่นนั้นคือนักเศรษฐศาสตร์
image.png
Billy Beane ได้ให้นักเศรษฐศาสตร์ประเมินว่าทีมที่จะชนะจะต้องมีผู้เล่นแบบไหนบ้าง และผู้เล่นแบบไหนที่อยู่ในตลาดตอนนี้ มีราคาประเมินที่ต่ำแต่เป็นผู้เล่นที่มีประสิทธิภาพ
ซึ่งนักเศรษฐศาสตร์ก็ได้ใช้ Linear Regression Model ในการหา Factor ของทีมที่จะได้แชมป์ และใช้หาผู้เล่นที่มีคุณภาพในการพาทีมไปสู่แชมป์ตาม Factor นั้นๆ ในราคาที่ถูกที่สุด
ผลสุดท้ายคือทีม Oakland A's ได้ชนะติดต่อกัน 20 ครั้ง และเป็นที่หนึ่งใน American League West
image.png
Drew Conway เคยพูดไว้ว่า Data Science คือทักษะที่รวมกันทั้ง 3 อย่างได้
Hacking Skill หรือ Coding Skill
Math & Statistics
Domain Expertise หรือ Business Knowledge
image.png
Drew Conway ได้กล่าวไว้ว่าคำว่า Data Science จะไปเล่ากี่ที ที่ไหนยังไงก็งง แต่ยังไงซะอาชีพเหล่านี้จะต้องมีการเรียนรู้ตลอดเวลา
image.png
เมื่อเรามีทักษะ Data Science และชุดข้อมูลก็จะได้ Insights ออกมาจำนวนหนึ่ง
image.png
แต่ถ้าเราพัฒนาทักษะ Data Science ให้ใหญ่ขึ้นเราก็จะสามารถสร้าง Insights ได้จำนวนมาก
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.