DeepSeek-R1 模型在 4 張 NVIDIA RTX? 5880 Ada GPU Generation 顯卡配置下,面對(duì)短文本生成、長文本生成、總結(jié)概括三大實(shí)戰(zhàn)場(chǎng)景,會(huì)碰撞出怎樣的性能火花?參數(shù)規(guī)模差異懸殊的 70B 與 32B 兩大模型,在 BF16 精度下的表現(xiàn)又相差幾何?本篇四卡環(huán)境實(shí)測(cè)報(bào)告,將為用戶提供實(shí)用的數(shù)據(jù)支持和性能參考。
首次 token 生成時(shí)間(Time to First Token, TTFT(s))越低,模型響應(yīng)速度越快;每個(gè)輸出 token 的生成時(shí)間(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。
在實(shí)際業(yè)務(wù)部署中,輸入/輸出 token 的數(shù)量直接影響服務(wù)性能與資源利用率。本次測(cè)試針對(duì)三個(gè)不同應(yīng)用場(chǎng)景設(shè)計(jì)了具體的輸入 token 和輸出 token 配置,以評(píng)估模型在不同任務(wù)中的表現(xiàn)。具體如下:
使用 DeepSeek-R1-70B(BF16),單請(qǐng)求吞吐量約 19.9 tokens/s,并發(fā) 100 時(shí)降至約 9.9 tokens/s(約為單請(qǐng)求的 50%)。最佳工作區(qū)間為低并發(fā)場(chǎng)景(1-50 并發(fā))。
使用 DeepSeek-R1-32B(BF16),單請(qǐng)求吞吐量達(dá)約 39.5 tokens/s,并發(fā) 100 時(shí)仍保持約 18.1 tokens/s,能夠滿足高并發(fā)場(chǎng)景(100 并發(fā))。
使用 DeepSeek-R1-70B(BF16),單請(qǐng)求吞吐量約 20 tokens/s,并發(fā) 100 時(shí)降至約 8.8 tokens/。最佳工作區(qū)間為低并發(fā)場(chǎng)景(1-50 并發(fā))。
使用 DeepSeek-R1-32B(BF16),單請(qǐng)求吞吐量達(dá)約 39.7 tokens/s,并發(fā) 250 時(shí)仍保持約 10.6 tokens/s,能夠滿足較高并發(fā)場(chǎng)景(250 并發(fā))。
使用 DeepSeek-R1-70B(BF16),單請(qǐng)求吞吐量約 18.7 tokens/s,并發(fā) 10 時(shí)降至約 10.9 tokens/。最佳工作區(qū)間為低并發(fā)場(chǎng)景(10 并發(fā))。
使用 DeepSeek-R1-32B(BF16),單請(qǐng)求吞吐量達(dá)約 37 tokens/s,并發(fā) 25 時(shí)仍保持約 15.3 tokens/s,能夠滿足中等并發(fā)場(chǎng)景(25 并發(fā))。
DeepSeek-R1-70B(BF16) 模型表現(xiàn):
短文本生成:支持 75 并發(fā)量,單請(qǐng)求平均吞吐量>10.9 tokens/s
長文本生成:支持 50 并發(fā)量,單請(qǐng)求平均吞吐量>12.5 tokens/s
總結(jié)概括:支持 10 并發(fā)量,單請(qǐng)求平均吞吐量>10.9 tokens/s
DeepSeek-R1-32B(BF16) 模型表現(xiàn):
短文本生成:支持 100 并發(fā)量,單請(qǐng)求平均吞吐量>18.1 tokens/s
長文本生成:支持 250 并發(fā)量,單請(qǐng)求平均吞吐量>10.6 tokens/s
總結(jié)概括:支持 25 并發(fā)量,單請(qǐng)求平均吞吐量>15.3 tokens/s
基于 4 卡 RTX 5880 Ada GPU 的硬件配置下:
本次基準(zhǔn)測(cè)試在統(tǒng)一硬件環(huán)境下完成,未采用任何專項(xiàng)優(yōu)化策略。
本文所有測(cè)試結(jié)果均由麗臺(tái)科技實(shí)測(cè)得出,如果您有任何疑問或需要使用此測(cè)試結(jié)果,請(qǐng)聯(lián)系 @麗臺(tái)科技 。
如需部署 DeepSeek 671B 完整參數(shù)版本,歡迎聯(lián)系 @麗臺(tái)科技 獲取定制化解決方案。