[新聞] OpenAI神秘gpt2正在A/B測試，奧特曼搶先劇透，網友已玩嗨 - Tech_Job板

作者 jackliao1990 (j)
標題 [新聞] OpenAI神秘gpt2正在A/B測試，奧特曼搶先
時間 Wed May 8 21:11:21 2024

OpenAI神秘gpt2正在A/B測試，奧特曼搶先劇透，網友已玩嗨
https://www.qbitai.com/2024/05/140099.html

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨 | 量子位 网友疯狂给奥特曼打白工 ...

明敏

OpenAI正在秘密A/B測試下一代模型，實力超強被懷疑是GPT-4.5或GPT-5。

就在奧特曼當謎語人暗示之後，兩款新模型悄悄上線大模型競技場。

https://tinyurl.com/57psz9bm

提示詞：畫一個自由女神像。

和GPT-4-Turbo（左）同場競技，gpt2-chatbot（右）明顯更勝一籌。

https://tinyurl.com/yc84ndz3

先前一款名為gpt2-chatbot的超強模型僅僅上線一天，熱情的網友就把伺服器擠爆了，不
得不下架，大家紛紛表示還沒玩過。

這次重新上線後，模型在一次報錯中直接給出了跳轉OpenAI平台網站的連結。

這下大家都嗨了，做實了是OpenAI在搞A/B測試？

也有人表示，這倆模型可能已經在推理和計劃方面進行微調。

現在在競技場裡隨機匹配，就能遇到這兩個新模型。

這不，網友們已經紛紛前去測試，一探它們的底細了。
程式碼能力突出

和第一次露面有所不同，如今想要用上gpt2，只能在Arena(battle)裡碰運氣，Direct
Chat中找不到它們的影子。

有的人運氣好，試了5次就成功讓這倆模型battle了一局。

https://tinyurl.com/yc4tjwyy

結合幾個範例來看，im-also-a-good-gpt2-chatbot產生的答案似乎總是更簡潔一些。

https://tinyurl.com/7zfv4p6j

程式碼生成方面，它能一次產生一個可執行的遊戲程式碼。

提示詞：Code Flappy Bird game in Python

https://tinyurl.com/ywpc67wz

效果如下：

https://tinyurl.com/3hspmth4

如果回答的代碼有誤，可以進一步追問讓它自己改正。

例如讓它們寫一個康威生命遊戲的程式碼，在未告知使用Colab時，模型寫出的程式碼有
問題。

但繼續追問並表示自己用的是Colab，im-also-a-good-gpt2-chatbot能夠自己修改對程式
碼，im-a-good-gpt2-chatbot不行。

還有在解決物理題方面，有Reddit用戶說im-also-a-good-gpt2-chatbot能解答出其他模
型都答不對的物理題。

問題：綠燈俠從一棟高樓頂跳下，他從靜止狀態開始做自由落體運動到地面，在他下
落過程的最後1秒時，距離地面的距離是大樓一半的高度，這座樓有多高？

不過我們實測了下，im-a-good-gpt2-chatbot似乎也能做對。

https://tinyurl.com/ydbxm2ct

還有人測試了一道推理題目，im-a-good-gpt2-chatbot可回答正確，
im-also-a-good-gpt2-chatbot也能做到但需要兩次提示。

問題：現在有兩個足球隊。球隊A贏了8次，球隊B贏了5次，已知剩下7次比賽，球隊
B想要贏得整場比賽，還需要至少贏幾場？

https://tinyurl.com/ads7rtcf

網友：白嫖大家回饋嗎？

儘管OpenAI還是沒有正式認領gpt2-chatbot，但網友幾乎已經默認它們是一家了。

因此有人覺得，gpt2-chatbot在競技場上搞A/B測試，這不是讓大家免費給他當志工。

OpenAI想要對內部模型進行人工評估，應該付給測試人員報酬，而不是在免費社區做。

有人覺得他們這麼做，就是為了炒熱度。

但現在gpt2-chatbot的底層模型到底是啥還不確定。

有人直接問了gpt2-chatbot，但可能有幻覺，它表示自己基於GPT-4架構，是GPT-4.5的變
體。

但之前奧特曼在公開演講中已經否定了。測試網友表示自己沒有給GPT-4.5相關的提示內
容。

https://tinyurl.com/ws3dnjpv

也有人懷疑，這兩個模型大小不一樣，叫這個名字是不是因為採用了GPT-2的架構來訓練
模型。

這和單純的MoE不同，它們使用了Q*、合成數據，Sam的推特編輯歷史是不是暗示了這
一點？

值得一提的是，最近有大V爆料稱本週OpenAI將公佈進軍搜尋引擎的消息。

https://tinyurl.com/46b3tumr

OpenAI已經更新了網站主頁，第一個輪番頁是一個搜尋框上面寫著“向ChatGPT問任何事
情”

https://tinyurl.com/pjxwf72m

爆料說這次發布的時間可能在北京時間週五的凌晨2點。

總之，最近OpenAI的動向，都有點神秘。

參考連結：
[1]https://twitter.com/itsandrewgao/status/1787758687651811705

[2]https://twitter.com/DimitrisPapail/status/1787899811514982887

[3]https://twitter.com/AlphaSignalAI/status/1786025388902097077

[4]https://gizmodo.com/powerful-new-gpt2-chatbot-mysteriously-returns-1851460717

Powerful New Chatbot Mysteriously Returns in the Middle of the Night

An advanced AI model with unknown origins is back online, as online communities are once again picking apart a cryptic Sam Altman tweet. ...

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.176.76 (臺灣)
※ 作者: jackliao1990 2024-05-08 21:11:21
※ 文章代碼(AID): #1cEteGo8 (Tech_Job)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1715173904.A.C88.html

→ labell: 共匪國?
跟台灣沒關係1F 05/08 21:28

推 applejone: 我有測試到一次，是比其他模型強，可惜當天太多人測試了一直遇到限制3F 05/08 21:53

噓 velaro: Artificial Stupidness5F 05/08 23:42

→ abc21086999: 2 > 46F 05/09 00:30

推 qwe78971: 都很好奇製作團隊到後面真得理解自己怎麼做的嗎7F 05/09 00:48

推 previa: 我覺得畫這種都沒啥意義，能夠畫出一些概念抽象圖比如UML Model 圖，或是時序圖，或是畫圖表達抽象概念，好比系統Stack圖這種才有意義
不然現在看應用比較淺都是畫A圖、畫插畫、場景這種不像是真正理解抽象概念後的圖。。8F 05/09 01:15

→ kaltu: 因為現在的生成式模型還只能在很淺的抽象等級維持一致性啊
只有圖像或文字的表面紋理層次能乍看之下正常，更深層問題的就無法用目標表達，現在的模型就是最佳化機器而已，你沒辦法包進目標函數的性質就不會受到任何重視
現在的問題是明顯的文字不一致有辦法變成loss function，但整個文脈邏輯不通、圖片的背景邏輯不合理、架構圖意義不明這種問題還沒辦法用一個簡單的可微函數表達就沒有辦法訓練13F 05/09 02:38

→ previa: 光是目前AI做的圖，裡面要有中文文字就很難
目前看到的比如生成的場景廣告招牌都是方塊文
但那個文不是CKJ這種文字23F 05/09 02:59

→ yunf: 這種拼燒錢的遊戲最後也沒台灣的國際地位26F 05/09 03:04

→ DrTech: 文字不一致為什麼不能訓練loss function？現在的任何LLM就是訓練輸入文字，與輸出文字不一致，不同啊。
至於UML，stack圖，沒辦法畫，是你不會用吧。舉例：寫一個pipeline，輸入需求，要求LLM輸出plantUML 文字描述，再用程式吧UML完成畫出就好。
可能文字上有什麼誤會吧。27F 05/09 06:57

推 holebro: 名字不會跟gpt2搞錯嗎34F 05/09 08:23

→ kaltu: 我不就是說明顯的文字不一致可以變loss function，問題是文字邏輯不通怎麼寫的？用字文法構句結構段落結構文章結構可能都有辦法，但內文狗屁不通和勉強通順和正常的loss function怎麼寫？ChatGPT現在是用RL同時生兩篇給使用者投票搞，但這效率對超大型網路需要的對不起來35F 05/09 09:59

作者 jackliao1990 的最新發文:

+15 [新聞] 網球》我當然擔心法網！喬科維奇日內瓦輸球驚傳健康問題 - Tennis 板

作者: jackliao1990 111.253.131.176 (台灣) 2024-05-25 09:50:55

24F 16推 1噓
+7 [討論] PRC評論:"中文網路正在加速崩塌" - Tech_Job 板

作者: jackliao1990 111.253.131.176 (台灣) 2024-05-24 22:42:22

11F 7推
+25 [情報] 黃仁勳:我很少進行單獨會議也很少解雇人 - Tech_Job 板

作者: jackliao1990 219.87.176.211 (台灣) 2024-05-24 12:43:33

黃仁勳最新萬字專訪：我直接管理60位高階主管，不建議1V1開會，很少裁人美股艾大叔劃重點 ① 黃仁勳承認，他管理著由60人組成的高階主管團隊，所有人都直接向他報告工作。 ② 黃仁勳透露，他很少與 …

36F 25推
+10 [討論] OpenAI敢讓菜鳥負責大項目反觀Google - Tech_Job 板

作者: jackliao1990 111.253.139.95 (台灣) 2024-05-19 20:15:18

25F 12推 2噓
+15 [新聞] 英特爾搶用新EUV 專家：成本高虧損恐擴大 - Tech_Job 板

作者: jackliao1990 111.253.139.95 (台灣) 2024-05-19 18:07:11

41F 16推 1噓

點此顯示更多發文記錄