Header Ads

SCB 10X และ SCBX ร่วมมือกับ Stanford CRFM เปิดตัว ThaiExam Leaderboard HELM: ช่องทางใหม่ในการประเมินโมเดลภาษาไทยบนแพลตฟอร์มระดับโลกของ HELM


SCB 10X และ SCBX ร่วมมือกับ ศูนย์วิจัยสแตนฟอร์ดด้านโมเดลโครงสร้างพื้นฐาน (Stanford CRFM) เปิดตัว ThaiExam leaderboard ซึ่งเป็นมาตรฐานที่ออกแบบมาเพื่อประเมินโมเดลภาษาขนาดใหญ่ (LLM) ในบริบทภาษาไทย โดยใช้กรอบการประเมินของ HELM (Holistic Evaluation of Language Models) ผู้นำด้านการออกแบบการประเมินโมเดลภาษาขนาดใหญ่ โดยความร่วมมือในครั้งนี้ช่วยให้การประเมินโมเดลครอบคลุมมากขึ้นโดยเน้นภาษาไทยเป็นหลัก

ThaiExam Leaderboard ออกแบบมาเพื่อประเมินโมเดลภาษาไทยขนาดใหญ่ ซึ่งได้มาจากการสอบวัดความรู้เชิงวิชาการระดับชั้นมัธยมศึกษาและการสอบวิชาชีพทางการเงิน เช่น ONET, TGAT, A-Level และการสอบผู้แนะนำการลงทุน (IC) เพื่อประเมินโมเดลภาษาไทยชั้นนำต่างๆ รวมถึง "ไต้ฝุ่น" (Typhoon) โดยให้ความโปร่งใสอย่างเต็มรูปแบบตั้งแต่การตั้งคำถาม หรือ โจทย์โดยโมเดลสาธารณะที่ใช้กรอบการประเมินของ HELM โครงการนี้เป็นการเปิดตัว leaderboard ในรูปแบบสาธารณะ และเป็นครั้งแรกที่ออกแบบมาโดยเฉพาะสำหรับการประเมินภาษาไทย มีวัตถุประสงค์เพื่อขับเคลื่อนการพัฒนาและการประเมินโมเดลภาษาไทย

นายกสิมะ ธารพิพิธชัย Head of AI Strategy บริษัท เอสซีบี เท็นเอกซ์ จำกัด (SCB 10X) กล่าวว่า "ความร่วมมือกับ Stanford CRFM ในครั้งนี้ตอกย้ำถึงความมุ่งมั่นของเราในการพัฒนา NLP ภาษาไทยและกำหนดมาตรฐานสำหรับการประเมินโมเดลภาษาหลายภาษาเรามั่นใจเป็นอย่างยิ่งว่า ThaiExam Leaderboard จะสามารถกระตุ้นการพัฒนาโมเดลภาษาไทยและส่งเสริมความร่วมมือในชุมชนวิจัย AI เพื่อสนับสนุนภาษาเฉพาะถิ่นที่ไม่ได้เป็นภาษาสากลและเป็นภาษาที่มีข้อมูลจำกัด"

แก้ไขช่องว่างในการประเมินโมเดลภาษาที่หลากหลายโดยเฉพาะภาษาที่มีข้อมูลจำกัด

แม้ว่าโมเดลขั้นสูง เช่น GPT-4 และ Claude 3 จะมีความสามารถหลายภาษา แต่กรอบการประเมินจะมุ่งเน้นการประเมินเป็นภาษาอังกฤษส่วนใหญ่ อย่างไรก็ตามThaiExam leaderboard จะเป็นกรอบการประเมินของ HELM ซึ่งมีวัตถุประสงค์เพื่อเติมเต็มช่องว่างที่สำคัญ กล่าวคือมอบระบบการประเมินที่ถูกปรับแต่งสำหรับภาษาไทยโดยเฉพาะ ซึ่งเป็นภาษาที่ซับซ้อนที่มีลักษณะทางภาษาที่ไม่เหมือนใคร ผ่านวิธีการที่เข้มงวดของ HELM นักวิจัยและนักพัฒนาสามารถประเมินประสิทธิภาพของโมเดลในภาษาไทยได้อย่างแม่นยำและโปร่งใส ด้วยข้อความภาษาไทยดั้งเดิมและชุดการประเมินที่ครอบคลุม โครงการนี้เสนอมาตรฐานที่จำเป็นสำหรับการทำความเข้าใจว่าโมเดลภาษาทำงานได้ดีแค่ไหนในบริบทภาษาไทย

ผลลัพธ์จากการประเมินโมเดลบน ThaiExam Leaderboard

ThaiExam Leaderboard ได้ประเมิน โมเดลภาษาไทยที่โดดเด่น 34 โมเดล โดย หนึ่งในนั้นมีโมเดลของ Typhoon ซึ่งผลจากการประเมินระบุว่า Typhoon 1.5X Instruct (70B) มีประสิทธิภาพเหนือกว่าโมเดลปิด เช่น GPT-4 Turbo และ Claude 3 Sonnet ที่เน้นความสามารถด้านภาษาไทยที่แข็งแกร่งด้วยความแม่นยำ 61.7% แม้แต่โมเดล Typhoon ขนาดเล็ก (8B) ก็ยังเหนือกว่า GPT-3.5 Turbo ในขณะที่โมเดล เช่น Claude 3 Haiku และ Llama 3 (70B) ก็แสดงผลลัพธ์ที่น่าสนใจ แม้จะไม่ได้รับการฝึกอบรมโดยเฉพาะสำหรับภาษาไทย ผลลัพธ์เหล่านี้เน้นย้ำถึงพลังของการปรับแต่งภาษาไทยที่เน้นภาษาไทยในการเพิ่มประสิทธิภาพภาษาท้องถิ่น

ส่งเสริม AI ภาษาไทยผ่านความร่วมมือระดับโลกและระดับภูมิภาค

SCB 10X มุ่งมั่นที่จะส่งเสริมนวัตกรรม AI ผ่านการร่วมมือเชิงกลยุทธ์กับบริษัท AI และสถาบันชั้นนำทั่วเอเชียตะวันออกเฉียงใต้และทั่วโลก ด้วยการทำงานอย่างใกล้ชิดกับผู้เล่น AI ที่โดดเด่น SCB 10X ใช้ประโยชน์จากความเชี่ยวชาญร่วมกันเพื่อขับเคลื่อนนวัตกรรมในระบบนิเวศ LLM ของไทย ซึ่งยกระดับคุณภาพและความเกี่ยวข้องของโซลูชัน AI ที่ปรับแต่งมาโดยเฉพาะสำหรับตลาดเอเชียตะวันออกเฉียงใต้ โครงการที่โดดเด่น ได้แก่ การเปิดตัว "ThaiLLM Leaderboard" ร่วมกับ VISTEC และ SEACrowd Project ซึ่งประเมิน LLM โดยใช้ 10 ชุดข้อมูลในงานหลักเพื่อส่งเสริมการเติบโตของงานวิจัย NLP ภาษาไทย นอกจากนี้ SCB 10X ยังร่วมมือกับสถาบันระหว่างประเทศ เช่น มหาวิทยาลัยเคมบริดจ์ (University of Cambridge) และมหาวิทยาลัยทิงหัว (Tsinghua University) เกี่ยวกับการตรวจจับภาพลวงตาหลายรูปแบบด้วย "CrossCheckGPT" และกับมหาวิทยาลัยมหิดลเพื่อใช้ประโยชน์จาก AI สำหรับการพัฒนาทั้งส่วนบุคคลและระดับชาติ อีกทั้ง SCB 10X ยังเป็นผู้มีส่วนร่วมในโครงการ เช่น SEA-LION v2 และ Project SEALD ร่วมกับ AI Singapore (AISG) เพื่อส่งเสริมโมเดลภาษาสำหรับภูมิภาค ความพยายามเหล่านี้ทำให้ประเทศไทยมีบทบาทอย่างแข็งขันในการพัฒนาเทคโนโลยี AI ทั่วโลก

SCB 10X, SCBX and Stanford CRFM Launched the ThaiExam Leaderboard in HELM: A Thai large language model benchmark derived from standardized examinations in Thailand.


SCB 10X and SCBX, in collaboration with Stanford CRFM (Stanford Center for Research on Foundation Models) introduces the ThaiExam leaderboard, an innovative public benchmark designed to assess large language models (LLMs) on Thai language scenarios. Powered by HELM framework (Holistic Evaluation of Language Models), an industry-leading evaluation framework, this collaboration paves the way for more inclusive, multilingual model evaluations, focusing strongly on the Thai language.

The ThaiExam Leaderboard is designed to assess language models in real-world Thai scenarios, derived from standardized high school and financial professional exams such as ONET, TGAT, A-Level, and the Investment Consultant (IC) exam. The leaderboard evaluates a range of leading models, including Typhoon powered by SCB 10X and SCBX, offering full transparency at the prompt level. It also provides reproducible results using the HELM's framework. This initiative represents a new publicly available leaderboard specifically designed for Thai language evaluation. It is aimed at driving innovation in Thai language model development and evaluation.

"This partnership with Stanford CRFM underscores our commitment to advancing Thai NLP and setting the standard for multilingual language model assessments," said Kasima Tharnpipitchai, Head of AI Strategy at SCB 10X. "We believe the ThaiExam leaderboard will spur innovation in Thai language models and foster collaboration across the AI research community to support underrepresented languages globally."

Addressing Gaps in Multilingual Evaluations

Despite the multilingual capabilities of advanced models like GPT-4 and Claude 3, evaluations predominantly focus on English tasks. The introduction of the ThaiExam leaderboard, powered by HELM's framework, aims to fill a critical gap. It offers a tailored evaluation system for Thai, a complex language with unique linguistic features. Through HELM's rigorous methodology, researchers and developers can now assess their models' performance in Thai with accuracy and transparency. With original Thai texts and a comprehensive set of assessments, this initiative offers a much-needed benchmark for understanding how well language models perform in Thai.

Results from Evaluating 34 Models on the ThaiExam Leaderboard

Among the 34 notable Thai Language Models evaluated, Typhoon 1.5X Instruct (70B) outperformed closed-source models like GPT-4 Turbo and Claude 3 Sonnet, highlighting its strong Thai language capabilities with an accuracy of 61.7%. Even smaller Typhoon models (8B) surpassed GPT-3.5 Turbo, while models like Claude 3 Haiku and Llama 3 (70B) also showed promising results despite not being specifically trained for Thai. These results underscore the power of Thai-centric fine-tuning in boosting local language performance.

Advancing Thai AI Through Global and Regional Collaboration

SCB 10X is committed to advancing AI innovation through strategic partnerships and collaborations with leading AI companies and institutions across Southeast Asia and beyond. By working closely with prominent AI players, SCB 10X leverages collective expertise to drive innovation in the Thai LLM ecosystem. This elevates the quality and relevance of AI solutions tailored specifically for the Southeast Asian market. Notable initiatives include the launch of the ThaiLLM Leaderboard, in collaboration with VISTEC and the SEACrowd Project. This evaluates LLMs using 10 datasets across key tasks, including ThaiExam, to foster growth in Thai NLP research. SCB 10X also partners with researchers from international institutions like the University of Cambridge and Tsinghua University on multimodal hallucination detection with "CrossCheckGPT", and with Mahidol University to leverage AI for both private and national development. Additionally, SCB 10X is also a contributor in initiatives like SEA-LION v2 and Project SEALD, in collaboration with AI Singapore (AISG) aimed at advancing language models for the region. These efforts ensure that Thailand plays an active role in AI technology advancement globally.

No comments

Powered by Blogger.