月狐數據發布中國市場首份《AIGC應用app智能化評測報告》
發布時間:2024-03-14 15:46:09 | 來源:中國網 | 作者:辛文 | 責任編輯:趙茜近年來,國內AI大模型行業蓬勃發展,市場上AIGC產品如雨后春筍般涌現,產品功能、體驗和玩法日趨豐富,同時用戶對于AIGC產品的使用興趣度不斷提升,生成式AI普及范圍持續擴大,截止2023年12月,生成式AI移動應用全網安裝滲透率達6.7%,MAU已超2000萬。為跟上技術迭代的步伐,月狐數據發布《2023 AIGC應用app智能化評測報告》,該報告為中國市場首份圍繞AIGC應用app的智能化水平以及智能體能力的專業測評報告,旨在通過多維度量化指標幫助用戶更直觀地評估現有主流AIGC應用產品的能力。
在報告中,AIGC應用app智能化評估體系的主要評估對象為當前國內主流的擁有自主大模型的對話式AIGC移動應用產品,包括文心一言app、通義千問app、訊飛星火app、豆包app、天工app、360智腦app和智譜清言app。該評估體系由基礎能力、使用體驗、生成質量、智能體能力、安全合規5個一級指標以及23個二級指標構成,采用了500道封閉題和開放題,結合自動化測試和專家評分的形式對各大AIGC應用產品進行打分。
評估結果顯示,文心一言app智能化綜合指數位居第一,其次是訊飛星火app、豆包app。拆分二級指標來看,文心一言app在基礎能力、安全合規、使用體驗、生成質量、智能體能力各方面表現突出,除此之外,通義千問、智譜清言app在基礎能力方面也相對領先,訊飛星火、天工app在安全合規方面也展現出較明顯的優勢。
“生成質量”和“智能體能力”這兩個維度能夠較明顯地體現出各大AIGC產品的能力區隔。具體看生成質量方面,各家app在不同類型的內容生成上各有優勢,其中文心一言app在邏輯推理、多輪行程規劃、情感對話、角色扮演等多個場景下生成的內容質量更好,而通義千問app更擅長創意寫作,在多輪行程規劃場景上也有較好的表現,訊飛星火和360智腦app則在數學計算上表現突出,智譜清言app在專業知識問答、情商問答場景上獲得最高分,豆包、360智腦app在專業知識問答上的表現也相對較強。
智能體能力則是月狐數據基于當下大模型技術的最新發展趨勢所增設的評測維度。智能體是指以AI為核心構建的一個集合立體感知、全域協同、精準判斷、持續進化等特征的智能系統,是各家大模型廠商目前著重布局的應用場景,基于智能體功能用戶可以按照自己的需求打造出更具個性化的AIGC方案。2023年,隨著各大廠商積極開發和迭代智能體功能,各應用智能體的能力在內容契合和個性化方面取得了質的提升;2024年初,AI智能體能力在“交互沉浸”和“角色還原”方面實現進一步創新,產生較多具有沉浸態和數字生命形態的智能體。因此,加入智能體能力評測指標,一方面能夠更加全方位地測量AIGC應用產品的能力,除了大模型的底層能力之外,也能測量到大模型技術的應用場景落地能力,另一方面能夠直觀體現國產大模型的最新發展進程。
評測結果顯示,文心一言app在智能體能力方面表現突出。在用戶創建智能體功能方面,文心一言app支持用戶通過上傳圖片或拍照的方式制作智能體形象,同時支持用戶通過錄制自己的音頻的方式來創建智能體聲音,還有豐富多元的性格標簽供用戶選擇,支持用戶創建出個性化程度更高的智能體。在智能體交互體驗方面,文心一言app官方構建的智能體在形象、聲音、語氣等方面可以較高程度地復刻本體,有較完整的數字人形象,軀體動作和表情均可動態化,同時支持語音交互、電話聊天等,強大的內容生成能力也讓智能體能夠較大程度地輸出契合設定(個性、功能、專業等)的內容。
例如2024春節期間,文心一言app推出了AI費翔智能體,智能體不僅以較完整、立體的形象展示,同時有動態的軀體動作和表情,支持語音和電話的形式進行聊天,智能體逼真的形象和聲音、同步的表情,給用戶帶來高度沉浸的交互體驗。
可以預見,在各大科技廠商的技術加持下,未來國內AIGC應用產品的落地能力和成熟度將會持續提升,不斷適應更加復雜多樣化的交互場景,加速向各行業、各應用場景中滲透,成為廣大用戶生活、工作、學習的全能助手。