阿里云更新技術(shù)博客:重磅發(fā)布全球性能最強(qiáng)的開源模型Qwen2-72B。據(jù)介紹,該模型性能超過美國最強(qiáng)的開源模型Llama3-70B,也超過文心4.0、豆包pro、混元pro等眾多中國閉源大模型。所有人均可在魔搭社區(qū)和Hugging Face免費(fèi)下載通義千問最新開源模型。
相比2月推出的通義千問Qwen1.5,Qwen2實(shí)現(xiàn)了整體性能提升,代碼、數(shù)學(xué)、推理、指令遵循、多語言理解等能力大幅提升。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等國際權(quán)威測評中,Qwen2-72B斬獲十幾項(xiàng)世界冠軍,超過美國的Llama3。
據(jù)介紹,Qwen2系列包含5個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B為混合專家模型(MoE)。Qwen2所有尺寸模型都使用了GQA(分組查詢注意力)機(jī)制,以便讓用戶體驗(yàn)到GQA帶來的推理加速和顯存占用降低的優(yōu)勢。
據(jù)悉,通義千問Qwen系列模型正在全球爆火,總下載量一個(gè)月內(nèi)翻了一倍,已突破1600萬次。全球開源社區(qū)已經(jīng)出現(xiàn)了超過1500款基于Qwen二次開發(fā)的模型。Qwen系列的72B、110B模型多次登頂HuggingFace 的Open LLM Leaderboard開源模型榜單。