เปิดเบื้องหลังการพัฒนา “Typhoon” Gen AI ภาษาไทย พร้อมเทียบ “สูตรไก่ย่างไทย” จาก Typhoon vs. ChatGPT

  • 68
  •  
  •  
  •  
  •  

SCBX-SCB 10X-Typhoon-Gen-AI

เมื่อโลกเปลี่ยนผ่านเข้าสู่ยุค AI ทำให้ Tech Company รายใหญ่ทั่วโลกต่างทุ่มงบประมาณ และสรรพกำลังในการพัฒนาเทคโนโลยี AI โดยเฉพาะ Generative AI ที่แข่งขันกันปักธงในสนามนี้ อย่างไรก็ตามท่ามกลางการพัฒนาอย่างรวดเร็วของ Generative AI หรือ Gen AI จะเห็นได้ว่าส่วนใหญ่แล้วเป็นของ Global Tech Company เป็น “ผู้สร้างเทคโนโลยี” ในขณะที่หลายประเทศ รวมถึงประเทศไทย อยู่ในฐานะ “ผู้ใช้เทคโนโลยี”

แน่นอนว่าการเป็น “ผู้สร้างเทคโนโลยี” ต้องใช้เงินลงทุนมหาศาล และงบประมาณที่ใส่ไปนั้น ยังไม่สามารถผลิดอกออกผลได้ภายในระยะสั้น หากทว่าการพัฒนาเทคโนโลยีของตัวเองนั้น ถือเป็นการลงทุนระยะยาวที่จะเพิ่มศักยภาพทางการแข่งขัน ทั้งในระดับองค์กร และระดับประเทศ ด้วยเหตุนี้เอง  SCB 10X ในเครือ SCBX Group” (กลุ่มเอสซีบี เอกซ์) จึงสร้างเทคโนโลยีของตัวเอง และหนึ่งในนั้นคือ Large Language Model (LLM) “Typhoon” (ไต้ฝุ่น) ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะที่เข้าใจคนไทย บริบทสังคมไทย และวัฒนธรรมไทย

 

โฟกัสเทคโนโลยี “AI – Blockchain – Climate

หลังจากปรับโครงสร้างองค์กรครั้งใหญ่ในปี 2021 จนมาสู่ยุทธศาสตร์ “ยานแม่” ด้วยการจัดตั้ง “SCBX” เพื่อนำบริษัทในกลุ่มไทยพาณิชย์ ซึ่งประกอบไปด้วย ธนาคารไทยพาณิชย์ และบริษัทต่าง ๆ ให้มุ่งเน้นธุรกิจที่มีการเติบโตสูง และตอบรับโลกแห่งอนาคต หนึ่งในแกนสำคัญคือ การจัดตั้งบริษัทใหม่ หรือธุรกิจใหม่ที่เกิดจากการลงทุนของบริษัทในเครือ อย่าง “SCB 10X” กลุ่มบริษัทมุ่งเน้นการสร้างเและลงทุนด้านเทคโนโลยี

“ทุกวันนี้ทั่วโลกมีสิทธิบัตรเพิ่มมากขึ้นเรื่อยๆ ในอัตราเร่ง แสดงให้เห็นว่า Test of New innovation เกิดขึ้นอย่างรวดเร็วขึ้น การเกิดขึ้นของเทคโนโลยีใหม่ เป็นทั้ง “จุดแข็ง” และ “จุดอ่อน” ขององค์กรก็ว่าได้ เพราะถ้าองค์กรไหนสามารถสร้างเทคโนโลยีใหม่ได้ องค์กรนั้นจะสามารถอยู่ในเกมการแข่งขันของโลกได้ แต่ถ้าองค์กรไหนเป็นผู้ใช้เทคโนโลยีอย่างเดียว หรือตามไม่ทันเทคโนโลยี จะทำให้องค์กรไม่สามารถคิดค้นพัฒนานวัตกรรมใหม่ได้ ส่งผลต่อต้นทุนขององค์กรจะสูงขึ้น เพราะจะเป็นแค่ผู้ใช้เทคโนโลยี

วิสัยทัศน์ของ SCBX มุ่งพัฒนา Financial Technology เพราะสิ่งสำคัญที่สุดคือ ไม่ใช่เป็นแค่ผู้ใช้ แต่เป็นผู้สร้างเทคโนโลยีด้วยเช่นกัน และสิ่งที่เราสร้างขึ้น ไม่ได้เก็บไว้คนเดียว แต่เป็น Open Source” คุณกวีวุฒิ เต็มภูวภัทร Head of R&D and Innovation Lab, SCBX อธิบายเพิ่มเติม

SCBX-SCB 10X
คุณกวีวุฒิ เต็มภูวภัทร Head of R&D and Innovation Lab, SCBX

เมื่อต้องการเป็นผู้สร้างเทคโนโลยี เพื่อสร้างความสามารถทางการแข่งขันในระยะยาว SCBX จึงได้ตั้งทีม R&D and Innovation Lab โฟกัส 4 แอเรียหลัก หรือที่เรียกว่า A-B-C-D ประกอบด้วย

– เทคโนโลยี AI

– เทคโนโลยี Blockchain

– เทคโนโลยี Climate Change

– เทคโนโลยีเกี่ยวกับ Disruption เป็นสิ่งใหม่ที่จะเข้ามา เช่น Quantum Computing

“เราเพิ่งตั้งทีม R&D and Innovation Lab เพราะเราไม่ได้อยากเป็นเพียงผู้ใช้เทคโนโลยีเท่านั้น แต่อยากค้นหาและพัฒนาตั้งแต่ต้นน้ำ เพราะฉะนั้นเราทำงานร่วมกับสตาร์ทอัพ และมหาวิทยาลัยทั้งในไทยและต่างประเทศ ขณะเดียวกันบทบาทหน้าที่ของ Innovation Lab คือ เอาเทคโนโลยีใหม่ๆ มาทดลอง โดยเริ่มจากขั้นตอน Identify เทคโนโลยีใหม่ที่เกิดขึ้นบนโลกใบนี้ เทคโนโลยีใดบ้างที่เราต้องเข้าไปทดลอง ซึ่งปัจจุบันเราโฟกัส 4 แอเรียหลักคือ AI – Blockchain – Climate Change – Disruptive Technology

จากนั้นเข้าสู่ขั้นตอน Proof-of-concept (POC) สร้างและทดลองเทคโนโลยีในสภาพแวดล้อมที่ปลอดภัย เพื่อดูว่าเทคโนโลยีที่เราทดลองสร้างขึ้นนั้น จะสามารถสร้าง Business Value ได้มากน้อยแค่ไหน และหลังจากทดลอง พิสูจน์เห็นแล้วว่าเทคโนโลยีนั้น จะสร้าง Value ให้กับกลุ่ม SCBX เราจะ Scale-up เทคโนโลยีที่เราสร้างขึ้น พร้อมกับเปิดให้กับพาร์ทเนอร์ ไม่ว่าจะเป็นองค์กร ผู้ประกอบการรายย่อย หรือบุคคลทั่วไปได้มีโอกาสใช้งาน”

AI

 

เปิดเบื้องหลังกว่าจะมาเป็น “Typhoon

การพัฒนาโมเดลภาษาขนาดใหญ่ในตลาด ส่วนใหญ่ถูกฝึกฝนเป็นภาษาอังกฤษเป็นหลัก ในขณะที่ภาษาไทย และภาษาอื่นๆ ในภูมิภาคเอเชียตะวันออกเฉียงใต้มีข้อมูล และทรัพยากรสำหรับการพัฒนาโมเดลที่จำกัด (Low Resource Language) ส่งผลให้ประสิทธิภาพการใช้งานและการพัฒนาต่อยอด ทำได้ไม่ดีเท่าโมเดลภาษาอังกฤษ ซึ่งเป็นความท้าทายของนักพัฒนา AI ในไทย

ดังนั้นการเกิดขึ้นของ Typhoon พัฒนาโดย SCB 10X ถูกออกแบบมาเพื่อแก้ไขปัญหาช่องว่างทางภาษาดังกล่าว โดยเป็นโมเดลภาษาขนาดใหญ่แบบ Open Source ที่พัฒนาขึ้นสำหรับภาษาไทยโดยเฉพาะ (Large Language Model optimized for Thai) และมีประสิทธิภาพเทียบเท่า GPT-3.5 ในภาษาไทย จากการวัดผลด้วยข้อสอบภาษาไทยที่มีความยากเทียบเท่าข้อสอบมัธยมปลาย และข้อสอบมาตรฐานอื่นๆ ในประเทศไทย เช่น O-NET, TGAT, TPAT, A-Level รวมถึงแบบทดสอบ IC (Investment Consultant) สำหรับผู้ให้คำปรึกษาด้านการลงทุน

“ทีมได้ศึกษา Generative AI ChatGPT” ทั้ง GPT 3.5 และ GPT 4 ด้วยการคุยภาษาไทย แต่พบว่ายังไม่ดีเท่าที่ต้องการ ทางทีมจึงมีแนวความคิดจะพัฒนา LLM ภาษาไทยโดยเฉพาะ จนในที่สุดพัฒนาออกมาเป็น “Typhoon” หลังจากทดสอบแล้วพบว่าความสามารถและประสิทธิภาพเกี่ยวกับภาษาไทย วัฒนธรรมไทย และบริบทไทยต่างๆ สามารถแข่งขันได้กับ ChatGPT

เรามองว่าประเทศไทยต้องการใช้เทคโนโลยีที่เหมาะกับตลาดไทยมากกว่าโมเดลเทคโนโลยีของต่างประเทศ ไม่ว่าจะเป็นความเข้าใจในตลาดไทย บริบทไทย วัฒนธรรมไทย พฤติกรรมคนไทย และการสร้างเทคโนโลยีของตัวเองขึ้นมา อย่าง Generative AI ภาษาไทย จะช่วยลดต้นทุนธุรกิจได้ในระยะยาว” คุณกสิมะ ธารพิพิธชัย Head of AI Strategy, SCB 10X เล่าที่มาของการพัฒนา Typhoon

SCB 10X-Typhoon

“Typhoonถูกออกแบบและพัฒนาขึ้นมาเป็น 2 เวอร์ชั่น ได้แก่

1. Pretrained Model ปรียบเสมือนการสอนให้โมเดลเรียนรู้ภาษาไทย ไม่ว่าจะเป็นคลังคำศัพท์ บริบท หรือวัฒนธรรมของภาษาไทย รวมถึงความรู้ทั่วไปที่เกิดขึ้นทั่วโลก

2. Instruction-tuned Model เปรียบเสมือนการสอนต่ออีกขั้นหนึ่ง ให้โมเดลสามารถสื่อสารสิ่งที่เข้าใจจากขั้นตอนการ Pretraining ตามคำสั่งที่ป้อนเข้าไปได้ เช่น การแปล การสรุปความ หรือการตอบคำถาม เป็นต้น

ผลการทดลองในชุดข้อสอบภาษาไทยแสดงให้เห็นว่า Typhoon มีประสิทธิภาพเหนือกว่าโมเดลภาษาไทยที่เผยแพร่สาธารณะอยู่ทั้งหมด และมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย ซึ่งเป็นโมเดลที่อยู่เบื้องหลัง ChatGPT โดยมีพารามิเตอร์เพียง 7 พันล้านพารามิเตอร์ และมีประสิทธิภาพมากกว่า 2.62 เท่าในการอ่านข้อความภาษาไทย

SCBX-SCB 10X
คุณกสิมะ ธารพิพิธชัย Head of AI Strategy, SCB 10X

 

ทำไมต้องเป็นโมเดลภาษาขนาดใหญ่แบบ Open Source

เหตุผลที่ Typhoon โมเดลภาษาขนาดใหญ่แบบ Open Source เพราะต้องการให้ทุกคนเข้าถึงง่าย และสร้าง Ecosystem ให้กว้างขึ้น ซึ่ง คุณกสิมะ อธิบายหตุผลว่าทำไม Typhoon ถึงพัฒนาเป็น Open Source ว่า ต่อไปเทคโนโลยี LLM AI จะสำคัญสำหรับชีวิตทุกคนในอนาคต เพราะฉะนั้นการพัฒนาให้เป็น Open Source จะทำให้ทุกคนสามารถเข้าถึงเทคโนโลยีนี้ได้ เหมือนเช่นอินเทอร์เน็ต และคริปโตที่เป็น Open Source

ประกอบกับการสร้าง AI ในโลกนี้ ไม่ได้มองแค่แข่งขันระดับประเทศเท่านั้น แต่เป็นการแข่งขันในระดับโลก ดังนั้นเพื่อพัฒนา Typhoon ให้สามารถแข่งขันได้ ต้องเป็น Open Source เพื่อสร้างความร่วมมือในการขยาย Ecosystem ให้เติบโต

ปัจจุบัน SCB 10X ยังฝึก Typhoon ให้เรียนรู้ต่อเนื่อง พร้อมเปิดให้ผู้สนใจและนักพัฒนาได้ทดลองใช้ Typhoon-7B ในเวอร์ชัน Pretrained model ภายใต้ใบอนุญาต Apache 2.0 อย่างไม่มีค่าใช้จ่าย โดยสามารถดาวน์โหลดได้ที่ https://huggingface.co/scb10x/typhoon-7b ซึ่งมีรายงานเชิงเทคนิคประกอบ สามารถอ่านเพิ่มเติมได้ที่ https://arxiv.org/abs/2312.13951

นอกจากนี้ผู้สนใจและนักพัฒนายังสามารถลงทะเบียนเพื่อรอทดลองใช้งานโมเดล Instruction-tuned เวอร์ชันเริ่มต้นในรูปแบบของ API ได้ในเร็วๆ นี้ ที่ https://opentyphoon.ai โดยมีจุดมุ่งหมายเพื่อการพัฒนาโมเดลภาษาไทยขนาดใหญ่ให้มีประสิทธิภาพและความก้าวหน้าเพิ่มขึ้น อีกทั้งเพื่อเพิ่มขีดความสามารถด้านการแข่งขันให้แก่อุตสาหกรรม AI ของไทย

SCB 10X-Typhoon

 

3 เหตุผล SCB 10X พัฒนา Gen AI

สำหรับเหตุผลหลักที่ SCBX และ SCB 10X ให้ความสำคัญกับการพัฒนา Generative AI มาจาก 3 ปัจจัยหลักคือ

1. จิ๊กซอว์สู่เป้าหมายการเป็น “AI-First Organization

Typhoon ถือเป็นก้าวสำคัญในการพัฒนาโมเดลภาษาไทยขนาดใหญ่ ที่ตอกย้ำความมุ่งมั่นของ SCB 10X ในการขับเคลื่อนและผลักดันความก้าวหน้าทางเทคโนโลยีให้กลุ่ม SCBX ที่มีเป้าหมายมุ่งสู่การเป็น “AI-First Organization” ควบคู่กับการสร้างธุรกิจใหม่ๆ ผ่านการเป็นผู้ให้บริการโซลูชันและเทคโนโลยีขั้นสูง

2. ต่อยอดการใช้งาน Typhoon ภายในกลุ่ม SCBX

การพัฒนา Typhoon ได้ดึง Use Case ที่เกิดขึ้นบ่อยในกลุ่มธุรกิจ SCBX เพื่อให้ AI เรียนรู้ เช่น คำถามด้านการเงินบางอย่างที่มีลูกค้าสอบถามเข้ามาบ่อย การติดตามหนี้เบื้องต้น หรือในกรณีบริการ Robinhood จะมีคำถามที่ถามบ่อย ทั้งจากฝั่งไรเดอร์ และฝั่งลูกค้า อย่างคำถามไรเดอร์สอบถามตำแหน่งจัดส่งของลูกค้า เป็นต้น

โดยต่อไป AI จะช่วยตอบ หรือสื่อสารกับลูกค้า แต่ต้องทำให้เป็นภาษามนุษย์ที่เข้าใจง่าย ชัดเจน และนอกจากการตอบในรูปแบบ Chat แล้ว SCB 10X ยังเตรียมพัฒนา Voice ให้กับ Typhoon ด้วยเช่นกัน ซึ่งการพัฒนาต่อยอดความสามารถและประสิทธิภาพที่เพิ่มขึ้นของ Typhoon เป็นเหตุผลที่ SCB 10X ถึงเลือกเป็น Open Source

3. ขยายการใช้งาน Typhoon สู่ผู้ประกอบการ SME – องค์กรใหญ่นำไปใช้

หลังจากทดลองใช้ภายในกลุ่ม SCBX แล้ว จะขยายการใช้งาน Typhoon สู่องค์กรภายนอก ทั้งธุรกิจ SME และธุรกิจขนาดใหญ่

SCBX จะทดลองใช้ Typhoon ภายในองค์กรก่อน ต่อไปถ้ามีลูกค้าองค์กร ทั้งผู้ประกอบการ SME และลูกค้าองค์กรขนาดใหญ่สนใจใช้งาน เราจะเปิดให้ใช้งานด้วยเช่นกัน เพราะเมื่อเป็น Open Source คนจะเข้าถึงได้ง่าย และจุดประสงค์แรกที่เราโฟกัสคือ นอกจากใช้งานภายในกลุ่มธุรกิจของเราแล้ว เราอยากให้คนตัวเล็กเข้าถึงเทคโนโลยี AI เพื่อทำให้การพัฒนา Typhoon สามารถสร้างประโยชน์ให้กับคนไทยได้มากที่สุด” คุณกวีวุฒิ ขยายความเพิ่มเติม

AI

 

เทียบ “Typhoonvs. ChatGPT” เมื่อถามสูตรไก่ทอดสไตล์ไทย

เพื่อให้เห็นภาพชัดเจนขึ้นถึงความเข้าใจในบริบทสังคมไทย วัฒนธรรมและความต้องการของคนไทย ทีม SCB 10X จึงได้ทดลองถามสูตรไก่ย่าง จาก “Typhoon”เปรียบเทียบกับ “ChatGPT” ซึ่งในกรณีนี้อยากได้สูตรไก่ย่างสไตล์ไทย จากการทดสอบพบว่า

– Typhoon: บอกสูตรไก่ย่าง ทั้งส่วนผสมและวิธีการทำแบบไทย ทั้งน้ำปลา กระเทียม ข้าวคั่ว  ขณะที่ขั้นตอนการทำ หลังจากหมักไก่แช่ไว้ในตู้เย็นอย่างน้อย 1 ชั่วโมง ให้นำไปย่างบนเตาถ่าน หรือกระทะไฟฟ้า เมื่อย่างจนไก่ทุกด้านมีสีน้ำตาลและสุกทั่วถึง นำมาจัดวางบนจาน โรยด้วยผักชีหั่นฝอย พร้อมทั้งแนะนำเหมาะสำหรับทานเล่น หรือทานคู่กับข้าวสวยร้อนๆ

SCB 10X-Typhoon
สูตรไก่ย่างและวิธีการทำที่ได้จากการ Prompt คำถาม Typhoon

– ChatGPT: ส่วนผสมใกล้เคียงกับ Typhoon แต่จะไม่มีข้าวคั่ว ในขณะที่ขั้นตอนการทำ หลังจากหมักไก่ แช่ไว้ในตู้เย็น 2 – 3 ชั่วโมง นำมาเข้าเตาอบ ย่างในอุณหภูมิ 180 องศาเซลเซียส ใช้เวลา 40 – 50 นาที  หมุนหรือพลิกไก่จนสุก พร้อมเสิร์ฟคู่กับซอสหอยนางรม หรือน้ำจิ้มตามชอบ

ChatGPT
สูตรไก่ย่างและวิธีการทำที่ได้จากการ Prompt คำถาม ChatGPT-3.5

จะเห็นได้ว่าคำตอบที่ Typhoon และ ChatGPT ให้มานั้น แม้จะเป็นเมนูไก่ย่างเหมือนกัน แต่มีส่วนผสมและวิธีการทำบางอย่างที่แตกต่างกัน

สำหรับสูตรไก่ย่างที่ Typhoon แนะนำนั้น เป็นไก่ย่างสไตล์ไทยที่คนไทยคุ้นเคย และคำแนะนำการทานไก่ย่างให้อร่อยขึ้น สอดคล้องกับวัฒนธรรมการรับประทานอาหารของคนไทยที่นิยมทานไก่ย่างเป็นอาหารทานเล่น หรือทานกับข้าว ขณะที่วิธีการทำไก่ย่างตาม ChatGPT เป็นสูตรไก่ย่างใช้เตาอบ คล้ายกับไก่ย่างอบเนย

“ไก่ย่างมีทุกประเทศ แต่ละประเทศไม่เหมือนกัน ถ้าเป็นคนไทยก็อยากทานไก่ย่างสไตล์ไทย นี่จึงเป็นเรื่องของวัฒนธรรมด้วย หรืออย่างใช้ Gen AI ช่วยในการแปล แน่นอนว่าสามารถแปลได้ แต่ไม่ได้หมายความว่าการแปลนั้น จะสอดคล้องกับ Context และ Culture ของสังคมไทยเสมอไป  

เราอยากให้คนไทย ถ้าต้องการใช้ Generative AI สามารถใช้เวอร์ชั่นภาษาไทยที่เข้าใจวิถีชีวิตคนไทย คลังคำศัพท์ บริบท และวัฒนธรรมของภาษาไทยโดยเฉพาะ” คุณกวีวุฒิ กล่าวทิ้งท้ายถึงการผลักดัน Generative AI ภาษาไทยที่พัฒนาสำหรับภาษาไทยโดยเฉพาะ

SCBX-SCB 10X


  • 68
  •  
  •  
  •  
  •  
WP
อยู่ในแวดวงนิตยสารธุรกิจการตลาดกว่าสิบปี สนุกและชอบติตตามเทรนด์ ไลฟ์สไตล์ใหม่ๆ และอยากเรียนรู้เพิ่มเติมในแพลตฟอร์มดิจิทัล มาร่วมแบ่งปันประสบการณ์การตลาดและดิจิทัลร่วมกันนะคะ