一年一度高考季,高考試題是大眾關注的焦點,也成為了AI能力的試金石。AI大模型數學功底到底如何?比人類“聰明”嗎?搜狐科技使用五款AI大模型對2023高考上海數學試卷進行了同題測試。
在測試中,搜狐科技選取了高考試卷前10道填空題,讓百度文心一言、阿里通義千問、科大訊飛星火認知大模型、360智腦、ChatGPT進行回答。
【資料圖】
測試結果顯示,這五款大模型在答數學題的能力上差異顯著。
最“聰明”的訊飛星火答對了5題,正確率50%。百度文心一言和ChatGPT“緊跟其后”,答對了4題,正確率為40%。
360智腦和通義千問則“全軍覆沒”,一道題也沒答對,交了白卷。
值得一提的是,昨天搜狐科技也用五款大語言模型產品,對高考作文全國卷(甲)進行了測試,并邀請了5位語文名師打分。
打分結果顯示,ChatGPT高考作文得分最高,文心一言、訊飛星火得分稍低,但跟ChatGPT處于同一水平。360智腦和通義千問得分最低。
雖然語文作文題和數學計算題,對大模型能力考察的維度并不盡相同。但巧合的是,不擅長寫作文的360智腦和通義千問,似乎也不擅長做數學題。
通過這兩次高考題測試,也能從側面反應出各家大模型的能力確實是“參差不齊”。如果ChatGPT、文心一言、訊飛星火是“學霸”,那么360智腦和通義千問則是妥妥的“學渣”。
附測試中使用的高考數學題題目:
1.不等式|x-2|<1的解集為__
2.a=(2,3),b=(-1,2),則a·b=__
3.首項為3,公比為2的等比數列的前六項和S6=__
4.tanA=3,tan2A=__
5.f(x)={2^xx>0;1,x≤0}的值域為__
6.復數z=1-i,則|1+iz|=__
7.圓的方程x^2+y^2-4y-m=0的面積為π,則m=__
8.三角形的三邊長為a=4,b=5,c=6,則sinA=__
9.某地一年四個季度的GDP(億元),第一季度GDP為232,第四季度GDP為241,且四個季度的GDP逐季度增長,中位數、平均數相等。則該地一年的GDP為__
10.(1+2023x)^100+(2023-x)^100=a0+a1x+a2x^2+…+a100x^100。若ak<0,正數k的最大值為__
責任編輯:
近日,第七屆中國汽車工程學會巴哈大賽(簡稱巴哈大賽)在湖北襄陽落下帷幕。該項賽事是繼中國大學生方程式汽車大賽(FSC)成功舉辦之后,中國
近年來,受國際能源價格大幅上漲影響,發揮壓艙石作用的新疆煤炭抓住契機,融入到全國統一大市場,有效緩解了國內能源供應偏緊形勢。隨之而
近日,備受矚目的東風天龍GX上市發布會暨東風天龍中國卡車駕駛員大賽(第6季)暨東風陽光杯(第2屆)全國商用車維修技能競賽總決賽在車城十堰隆
隨著科技進步,新一輪產業變革蓬勃興起。數字化發展,是互聯網時代向大數據時代、后數據時代的必由之路,抓住數字經濟的發展新機遇,是實現
5月19日,由國家郵政局、中華全國總工會指導,中國郵政快遞報社主辦的第五屆中國夢·郵政情 尋找最美快遞員活動揭曉發布會在北京國際會議
明月出天山,蒼茫云海間。5月21日,耀世登場·擎鈴未來慶鈴五十鈴2023款ELF輕卡家族在克拉瑪依煥新上市。憑借智能、效能、全能的產品優勢,
2023年5月15日,國產高端重卡東風天龍GX全場景干線接力實測圓滿收官。歷時6天,途徑成都-恩施-潛山-上海-武漢-十堰,全場景驗證盆地、高原
5月10日,東風天龍GX成都-上海-十堰全場景干線實測拉開序幕,本次實測的重頭戲,不僅在于東風天龍GX的全方位展示,更是圍繞著百公里油耗的
近日,由國家互聯網信息辦公室、國家發展和改革委員會、工業和信息化部、國務院國有資產監督管理委員會、福建省人民政府等共同主辦的第六屆
5月11日,峰捷(湖北)供應鏈有限公司、東風商用車有限公司與荊門中澤汽車有限公司在湖北十堰共同簽署了采購100臺東風天龍牽引車的戰略合作協