[新聞] AI程式設計師Devin臥底工作群修bug!和CTO

工作

510

AI程式設計師Devin臥底工作群修bug! 和CTO聊技術,”頂級碼農水平”

https://www.qbitai.com/2024/03/128338.html

夢晨

Agent的ChatGPT時刻


首個AI程式設計師 Devin ,現身明星新創公司內部群。

為解決一個技術問題,Devin借用了其創造者的帳號, 與客戶公司的CTO交流 ,並根據回
應調整了代碼方案。

對話之專業,圍觀者看了直呼這個世界太瘋狂。

https://tinyurl.com/5n7zpdnf


事情發生在辦公室軟體Slack,截圖中的akshat是AI基礎設施新創公司 Modal Labs 的
CTO Akshat Bubna 。

Modal Labs也是Devin開發商Cognition的首批客戶之一。

此時Devin正披著他的創造者之一、IOI金牌得主 Steven Hao 的馬甲。

對話的開始,AI程式設計師Devin正在詢問有關Modal Lab平台的密鑰的生命週期問題,特
別是密鑰更新後傳播到正在運行的應用程式所需的時間。

Devin表示 自己已經查閱了文檔 ,包括金鑰和環境變數指南、CLI指令參考、API參考以
及容器生命週期鉤子和參數, 但依舊沒有找到關於金鑰傳播時間的明確資訊 。

Devin詢問了更新的金鑰通常需要多長時間才能被運行中的應用程式使用,因為這對於他
們的營運至關重要, 了解這一點將有助於管理他們的部署流程 。

人類CTO解釋說,當金鑰更新時,他們不會使已經運行的Modal容器失效,但是新啟動的容
器將會讀取更新後的值。

Devin對此表示感謝,並 決定暫時採用手動方法來管理Modal中的金鑰,即在需要時呼叫
modal deploy指令來觸發相關應用程式容器的重新啟動 。

看完整個過程後,同樣是AI創業家的Raunak Chowdhuri評價到:

發現問題、創建工單、調整程式碼,最好的人類開發者就是這麼工作的。

Devin更多實測結果

拿到Devin早期測試資格的人和公司不多,不過還是陸陸續續有人曬出實測結果。

熱衷AI的華頓商學院教授 Ethan Molick 試過後,認為其新穎的即時互動方式是最值得關
注的。

您可以隨時與它“交談”,就像與人交談一樣,它會在後台不斷地執行和調試您的想
法。

在測試中,Ethan Mollick要求Devin開發一個解釋「新創公司融資中的股權稀釋」的網站


不過他透露,AI還無法在沒有任何幫助的情況下,自主且無錯誤地完成這項工作。

要想把一個重大項目交給人工智慧來完成,還有很長的路要走,但這仍然是一個令人
著迷的開始。

另一位曬出測試過程的創業家 Mckay Wrigley 則更激動一些。

在他曬出的27分鐘測試中,只發了一個GitHub連接,讓Devin部署來自開源專案的程式碼


Devin 自主把任務拆解成一系列子步驟 ,一步一步開始執行。

執行過程中,Devin在安裝Supabase資料庫時遇到了障礙, 自己打開了對應的Github倉庫
開始查閱文件 …

從後續終端回饋可以看出,Devin查到了運行Supabase所需的各種連接埠和密匙都應該填
什麼。

(裝過的都知道,雀食挺麻煩……)

同時,Devin也正在 根據實際情況不斷修改自己的後續計畫 。

一段時間過後,一個本地的聊天機器人程式就跑起來了。

測試一段時間後Mckay Wrigley認為, Devin已經可以算Agent的ChatGPT時刻。

復現Devin計劃ing

Devin這邊大夥還在接連測試,另一邊開源「復現」方案也在進行中…

這不,GitHub三萬Star專案 MetaGPT 就上新了「開源版Devin」。

名為 資料解釋器 (Data Interpreter):

和Devin一樣,Data Interpreter也能實現自主編程,能迭代式觀察數據,預測分析病情
進展、機器運作狀態;還能建構機器學習模型、進行數學推理、自動回覆電子郵件、仿寫
網站…

例如從英偉達股價數據分析收盤價格趨勢:
https://tinyurl.com/4h8xkfsx


分析數據預測葡萄酒品質:
https://tinyurl.com/479u8adk


除此之外,阿里Qwen成員Binyan Hui等人開啟了 OpenDevin 項目,剛起步已獲得1.2k
Star。


Binyan Hui發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時
間內就完成了前端原型。

同時專案團隊也在招募新成員:
https://tinyurl.com/4zp34x9d


另外,也有一個名為Maisa AI的團隊推出了 Maisa KPU (Knowledge Processing Unit)
,被網友認為與Devin有一些競爭。

目前Maisa KPU處於測試階段,它可以解決複雜問題和推理,團隊發布的基準測試結果如
下:
https://tinyurl.com/y6k7k99w


根據demo展示,KPU可以成為“智慧客服”,在客戶沒有正確寫好訂單號碼的情況下,幫
助客戶解決訂單未送達的問題:
https://tinyurl.com/3pt7t759


Devin基準測試技術報告發布

最近,Devin創始團隊Cognition也發布關於SWE-bench測試的技術報告。

除了先前已公佈的測試結果之外,團隊還透露了一些新消息。

例如,Cognition的目標之一是讓Devin這個專門從事軟體開發的AI智能體能夠成功地為大
型、複雜的程式碼庫貢獻程式碼。

選擇在SWE-bench上端到端運行智能體,也是考慮了它更接近現實世界的軟體開發。

此外,研發團隊還透露,為了防止Devin在測試中作弊,例如查找外部的pull requests信
息,測試已做相關設置,確保Devin無法訪問相關信息,並且在此過程中也已人工手動檢
查了Devin運行情況。

最後團隊強調Devin仍處於起步階段,仍有很大進步空間:
https://tinyurl.com/42amb7wc



更多細節有興趣的家人們可查看報告詳情。

Devin發布不到一周,網友們的討論已十分熱烈。

例如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。

以後Stack Overflow 都是各種Devin在提問,人,就只能被擠出去 (Stack Overflow危
!!!)


有網友回應 (手排狗頭) :

它們可以互相回答問題。


還有網友發現Devin背後團隊Cognition正在招募全職軟體工程師,於是緩緩打出一個問號


Devin不是應該填補這些職缺來為他們省錢嗎?


最後,若Devin公開你會想用它幹點啥?

參考連結:
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
[2]https://x.com/raunakdoesdev/status/1769066769786757375

[3]https://twitter.com/emollick/status/1768742585122558063

[4]https://x.com/mckaywrigley/status/1767985840448516343
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.38.11.114 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1710764573.A.1C3.html
MTKer55661樓試試看一些台灣人寫的Makefile,不信你能build得過 03/18 22:12
Feltonee2樓樓上笑死 03/18 23:53
labbat3樓大概是偽裝成gnu makefile的nmake makefile唄 03/19 00:54
MTKer55664樓我預判了你預判的makefile 03/19 01:56
yunf5樓臥底PTT頂級灌水鄉民! 03/19 04:40
更多新聞
[新聞] 確定了! 鄭文燦:台積電先進封裝廠落腳
[新聞] 路透:台積電考慮將「台灣限定CoWoS技術
[新聞] 頭款有400萬!竹科小夫妻「年收360萬」
[新聞] 緯創手筆勝五哥!林憲銘談IP布局「要當智財權輸出者」
[新聞] 竹科大廠關廠裁員逾5百人 萬坪廠房喊價逾
[新聞] 微星於桃園擴廠布局 AI 伺服器,三大產品
[新聞] 台積電二奈米高雄廠 年底1500人進駐
[新聞] 輝達執行長黃仁勳今年度獎金 上看9,600萬