Benchmark අතික්‍රමණය කරන බලවත් AI එකක් OpenAI සමාගමෙන්

o1 වලින් පසුව o2 නැතුව o3 ලෙස තම නව AI මොඩලයන් නම් කරන්න OpenAI සමාගම වෙත හේතුවක් තියෙනවා.

පසුගිය දිනක OpenAI සමාගම ඔවුන්ගේ නවතම AI මොඩලයන් වන o3 සහ o3-mini නිලවශයෙන් නිවේදනය කළා. "12 days of OpenAI" හි අවසාන දිනයේ එනම් දෙසැම්බර් 20 වෙනිදා මේ නව මොඩලයන් සහ ඒවායේ ක්‍රියාකාරිත්වයන් ගැන හඳුන්වාදීම සිදු වුනත් පරිශීලක අපට මෙය භාවිත කිරීමට නම් දැන්ම අවස්ථාව හිමිවන්නේ නැහැ.

2024 වසරේ මුල් භාගයේ හඳුන්වා දුන් OpenAI o1 මොඩලයන් මතින් තමයි මේ නව o3 සහ o3-mini ගොඩ නැගෙන්නේ. මේ නව o3 මොඩලයන් o1 මොඩලයන් වලට වඩා ඉතාම බලවත් බව අමුතුවෙන් නම් කියන්න ඕනේ නැහැ.

මේ වෙද්දීත් public safety testing සහ research access වෙත o3 මොඩලයන් විවෘතව පවතිනවා.

නමුත් පරිශීලක අපට නම් ලබන වසර වනතෙක් o3 සහ o3-mini අත්හදා බලන්න ඉවසන්න වෙනවා. සාමාන්‍යයෙන් මෙවැනි බලවත් AI මොඩලයක් මහජනතාව වෙත නිකුත් කරන්න කලින් ඉතාම දැඩි පරික්ෂාවන්ට ලක්කරන එක අතිශය වැදගත්.

මොකද එවැනි බලවත් AI එකකින් පොදු ජනතාවට යහපතකට වඩා හානි සිදු වෙන්න ඉඩකඩ වැඩි නිසා. මෙතනින් අදහස් වෙන්නේ විද්‍යා ප්‍රබන්ධ වල වගේ AI ලෝකය ආක්‍රමණය කරන එකකින් සිදු වන හානි ගැන නම් නෙමෙයි.

OpenAI CEO Sam Altman, Research Scientist Mark Chen, and Research Scientist Hongyu Ren present the O3 models, urging safety testing and alignment. — OpenAI හි සෑම් ඕල්ට්මන්, මාර්ක් චෙන් සහ හොන්ග්යු රෙන් විසින් o3 මාදිලි පිලිබඳ නිල නිවේදනය අතරතුර - OpenAI

මේ විශාල දත්ත ප්‍රමාණයෙන් හානි දායක දේවල් නිර්මාණය වෙන්න තියෙන ඉඩකඩ අහුරන එක තමයි මේ පරීක්ෂණ වල අරමුණ වෙන්නේ.

OpenAI හි මේ මොඩලයන් පොදු නොවූ චින්තන දාමයන් එහෙම නැති නම් "private chain of thought" ක්‍රමවේදයන් භාවිත කරනවා. මෙහිදී එම මොඩලය පරිශිලකයා ඇසු පැනයකට පිළිතුරු දීමට පෙර, ලබාදීමට යන පිළිතුර පිළිබඳව ස්ව අධ්‍යනයක යෙදෙනවා. මෙය "simulated reasoning" (SR) ලෙසින් ද හඳුන්වන්න පුළුවන්. ඊට අමතරව මේ ක්‍රියාදාමය ප්‍රථමික අදියරේ large language models (LLMs) ඉක්මවා යන හැකියාවක්.

chain-of-thought prompting යනු කුමක් ද?

Chain-of-thought prompting කියන්නේ මානව තර්කනය අනුකරණය කරන ආකාරයෙන් prompts ඇතුලත් කිරීමෙන් තර්කනය, ගණනය කිරීම් සහ තීරණ ගැනීම වැනි කාර්යයන් සඳහා භාෂා ආකෘතිවල ක්‍රියාකාරිත්වය වැඩි දියුණු කිරීම අරමුණු කරගත් engineering technique එකක්.

මේ මොඩලයන් o3 ලෙස නම් කිරීමට ගත් තීරණය මාත් ඇතුළු බොහෝ දෙනෙක් වෙත යම් මට්ටමක කුතුහලය දනවන්නක් වූ බව නම් කියන්නම ඕනේ.

The Information වෙබ් අඩවිය වාර්තා කරන අන්දමට o1 මොඩල කට්ටලයෙන් පසු නිකුත් වීමට නියමිත මේ මොඩලයන් o3 ලෙස නම් කරන්නට OpenAI සමාගම තීරණය කලේ බ්‍රිතාන්‍යයේ ප්‍රමුඛ පෙලේ දුරකථන ජාල සේවා ප්‍රවර්ධක සමාගමක් වන O2 හා යම් ආකරකයට trademark conflict එකකට පැටලීමට ඇති නොකැමැත්ත නිසායි.

කොහොම වුනත් livestream එකක් අතරතුර OpenAI සමාගමේ CEO Sam Altman නම් කියන්නේ තම සමාගම කොහොමත් නම් තැබීම් සම්ප්‍රදායන් වලදී වලදී එතරම් හොඳ නැති බවයි.

"In the grand tradition of OpenAI being really, truly bad at names, it'll be called o3."

ARC-AGI benchmark එකේදී සාමාන්‍ය මිනිසෙක් ලබාගන්නා සාමාන්‍ය ලකුණු සීමාව (85%) ඉක්මවා යන්න o3 model එක වෙත හැකි වෙලා තියෙනවා. ඒ Low-compute scenarios වලදී o3 75.7% අගයක් ලබා ගන්නත්, high-compute testing වලදී 87.5% ක අගයක් ලබා ගනිමින්.

මීට අමතරව 24 American Invitational Mathematics Exam එකෙන් 96.7 % ලකුණු ප්‍රමාණයක් ද, GPQA Diamond එකේදී 87.7 % ක් ද, Frontier Math benchmark by EpochAI එකේදී o3 මොඩලයන් 25.2 ප්‍රමානයක් ප්‍රශ්න විසඳන්නත් සමත් වෙලා තියෙනවා.

මේ පිළිබඳව වැඩිදුර විස්තර දැනගැනීම සඳහා theinformation.com වෙබ් අඩවිය සහ openai.com වෙබ් අඩවිය භාවිතා කළ හැක.