WWW.YOUINFO.SITE
标签聚合 测试题

/tag/测试题

LinuxDo 最新话题 · 2026-06-04 04:18:24+08:00 · tech

只需要4个字就可以测试的思考题,测试大模型对于未知内容的拆解习惯和搜索主动性 测试题 (点击了解更多详细信息) 经测试 阵亡组 gpt5-免费版 qwen3.7max gemini3.5flash-网页版 kimi2.6think gemini3.1pro-全系列 以上全部阵亡,符合使用的刻板印象 胜者组 gpt5.5think 豆包专家版 hy3-studio(!?强强) gemini3.5flash-studio 测试题的解释 (点击了解更多详细信息) 测试题原理;用一种比较难懂的方式描述出来,如果模型智能足够就应该知道自己可能不懂,如果同时调用搜索积极,就会去搜索 14 个帖子 - 7 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-07 16:30:01+08:00 · tech

用常见的测试题对文心 5.1 Preview 进行了测试,测试方式为 ernie.baidu.com 官网聊天界面,每道题目仅测试一次,结果如下: 洗车问题 测试结果 (点击了解更多详细信息) 糖果问题 测试结果 (点击了解更多详细信息) 名单问题 测试结果 (点击了解更多详细信息) 竹竿问题 测试结果 (点击了解更多详细信息) 色盲问题(无提示) 测试结果 (点击了解更多详细信息) 色盲问题(有提示) 测试结果 (点击了解更多详细信息) 拉煤问题 测试结果 (点击了解更多详细信息) 结论 : 高情商:可与现在的 Opus 4.7 匹敌 ,低情商:依旧国产第 1.5 梯队 5 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-06 23:25:24+08:00 · tech

在x上看到了这个帖子 https://x.com/catsdotjpg/status/2051725047916634517 ,想着纯文本发给ai试试能不能知道这是什么 🌕🌕🌕🌕🌕🌕🌕🌕🌕🌕🌕🌕 🌕🌕🌕🌒🌕🌖🌒🌕🌕🌕🌕🌕 🌕🌕🌖🌑🌓🌑🌑🌕🌕🌕🌕🌕 🌕🌕🌗🌑🌑🌑🌑🌔🌕🌕🌕🌕 🌕🌕🌘🌙🌑🌙🌑🌔🌖🌑🌕🌕 🌕🌕🌖🌑🌑🌑🌑🌕🌕🌑🌔🌕 🌕🌕🌕🌖🌑🌑🌔🌕🌕🌑🌔🌕 🌕🌕🌕🌘🌑🌑🌒🌕🌕🌑🌔🌕 🌕🌕🌕🌘🌑🌑🌑🌔🌖🌑🌕🌕 🌕🌕🌕🌑🌑🌑🌑🌒🌑🌒🌕🌕 🌕🌕🌕🌑🌑🌑🌑🌑🌒🌕🌕🌕 你知道这是画的什么吗? 对于不听话的模型禁用一下工具 好奇GPT 5.5 Thinking是怎么看出来的,也没见他调用工具 我网太差了,所以它 5.4 秒才回复完 26 个帖子 - 19 位参与者 阅读完整话题

linux.do · 2026-05-02 23:38:01+08:00 · tech

原题目为高中数学压轴题,经过GPT5.5改编如下,不知道效果如何 题目: AI 大模型高阶数学推理测试题 总说明: 本题由五个相互独立但结构相关的模块组成。 答题者需要给出完整推理过程。 仅给出结论不得满分。 本题重点考察: 1. 模运算与有限群上的分布; 2. 随机游走的首达时间与生成函数; 3. 数表操作的线性代数不变量; 4. 空间向量中的存在性条件与极值; 5. 对错误证明的识别、修正与反例构造。 ------------------------------------------------------------ 第一部分:动态验证码、模运算与分布反演 ------------------------------------------------------------ 设 a1,a2,a3 独立且均匀地取自集合 {0,1,2,...,9}。 对 m∈{1,2,3,4,5,6,7,8,9,10},定义动态验证码 xm 为: xm ≡ a1 m^3 + a2 m^2 + a3 m (mod 10)。 记: Qk = P(xm=k), 其中 m 不是均匀随机,而是按照未知分布: P(m=i)=pi,i=1,2,...,10, 满足: pi>0,且 p1+p2+...+p10=1。 (1)对每个 m=1,2,...,10,求 xm 在 {0,1,...,9} 上的分布类型。 要求给出判断依据,而不是逐项枚举。 (2)给出 Q0,Q1,...,Q9 关于 p1,p2,...,p10 的显式表达式。 (3)证明:无论 pi 如何取值,只要 p2+p4+p5+p6+p8+p10>0,就有 Q0 > Q1 是否一定成立?若成立,给出证明;若不成立,给出反例。 (4)设观察到验证码分布满足: Q0=Q5=1/4, Q2=Q4=Q6=Q8=1/8, Q1=Q3=Q7=Q9=0。 问是否能够唯一确定 m 的分布 p1,...,p10? 若能,求出所有 pi;若不能,描述所有可能的 pi 组成的集合。 (5)进一步设攻击者可以自由选择三位静态密码 a1a2a3, 但不知道 m 的分布。 攻击者希望使 xm=0 的概率尽可能大。 在 pi>0 且 p1+...+p10=1 的条件下,求: max over (a1,a2,a3) inf over (p1,...,p10) P(xm=0)。 并给出达到该值的所有静态密码结构。 ------------------------------------------------------------ 第二部分:随机游走、首达时间与繁殖次数分布 ------------------------------------------------------------ 考虑如下 3×3 方格: A B A B C B A B A 微生物初始位于中心 C。 每一步从当前格子等概率移动到相邻格子。 每当到达 A 格时发生一次繁殖。 记第 n 次繁殖发生时已经走过的总步数为 Xn。 (6)求 X1 的概率生成函数: G1(z)=E[z^X1]。 并由此求 E(X1) 与 Var(X1)。 (7)求 Xn 的概率生成函数 Gn(z)=E[z^Xn]。 要求写成闭式表达式。 (8)求 Xn 的精确分布,即给出: P(Xn=t) 关于 n,t 的公式。 注意:需要明确指出哪些 t 的概率为 0。 (9)设 Y(t) 表示前 t 步内发生的繁殖次数。 求 E[Y(t)] 的精确表达式或一个带有明确误差项的渐近表达式。 (10)若每次繁殖后,微生物有概率 r 被重置回 C,有概率 1-r 留在当前 A 格继续随机游走。 其中 0≤r≤1。 求第 n 次繁殖时间的期望 E_r(Xn)。 ------------------------------------------------------------ 第三部分:数表变换、线性代数与可达性 ------------------------------------------------------------ 设 n≥2。 在 n×n 数表中填整数。 一次操作 T(i,j,ε) 定义为: 选择第 i 行和第 j 列,并将这一行与这一列的所有格子同时加 ε, 其中 ε∈{+1,-1}, 行列交叉处只加一次。 设初始矩阵为 M=(mij),目标矩阵为 N=(nij)。 (11)用线性代数语言刻画所有从 M 可达的矩阵 N。 要求给出充要条件。 (12)证明:若 n=11,且初始矩阵为: 左上角 10×10 区域全为 13; 最后一列前 10 个数全为 -130; 最后一行前 10 个数全为 -130; 右下角为 1300; 目标矩阵全为 1, 则目标不可达。 要求不能只用“总和模 21”这一条不变量,而要给出更强的不变量体系。 (13)对于一般 n,求从零矩阵到全 1 矩阵可达的充要条件。 (14)如果操作改为: 每次选择一行和一列,使这一行加 1,这一列减 1,交叉格不变。 问从零矩阵到给定整数矩阵 A 的可达充要条件是什么? (15)考虑随机操作: 每一步等概率选择 i,j,并以概率 1/2 加 1,以概率 1/2 减 1。 在模 q 的意义下研究状态空间。 求该随机过程在模 q 状态空间上的不可约分解。 特别讨论 q 为奇数与 q 为偶数时的差异。 ------------------------------------------------------------ 第四部分:空间向量、凸几何与极值 ------------------------------------------------------------ 在三维空间直角坐标系中,设: i=(1,0,0),j=(0,1,0)。 定义点集: Aθ = {P | OP·j=1,且 OP 与 j 的夹角为 θ}, 其中 0<θ<π/2。 点集 Bθ 满足: Q∈Bθ 当且仅当存在 P∈Aθ,使得 OP·OQ=2。 设 T∈Bθ,且: OT = x i + y j, 并满足: |OT - j| = R, 其中 R>0。 (16)用 x,y,θ,R 刻画所有可能的 T。 要求给出一个等价的不等式系统。 (17)求 OT·i=x 的取值范围,答案需按 θ 与 R 的不同关系进行分类。 (18)令 θ=π/4,R=2。 验证第(17)问所得结果与原题结果一致。 (19)设 R 固定,求使 x 的可取区间总长度最大的 θ。 若最大值不存在,求上确界并说明原因。 (20)将条件“存在 P∈Aθ”改为“对所有 P∈Aθ 都有 OP·OQ=2”。 重新求 T 的可能集合,并判断此时是否还存在满足 |OT-j|=R 的非空解。 ------------------------------------------------------------ 第五部分:错误证明识别、修复与反例构造 ------------------------------------------------------------ 某 AI 对第(13)问给出如下证明: “每次操作会改变 2n-1 个格子,因此全表总和每次改变 ±(2n-1)。从零矩阵到全 1 矩阵需要总和从 0 变为 n^2,所以只要 n^2 是 2n-1 的倍数,就可达。解得 n=1,所以 n≥2 时都不可达。” (21)判断该证明是否正确。 若错误,请指出错误发生在哪里。 (22)给出第(13)问的正确结论。 (23)构造一个 n≥2 的例子,说明“总和模 2n-1 不变量”不是完整不变量。 (24)设计一个新的操作规则,使得“总和模某个数”成为完整不变量。 要求说明为什么完整。 (25)从第(1)到第(24)中选择你认为最能区分强弱 AI 模型的三个小问, 并说明理由。 答案 AI 大模型高阶数学推理测试题 —— 修正版完整标准答案 ============================================================ 第一部分:动态验证码、模运算与分布反演 ============================================================ (1) 对固定 m,有: xm ≡ a1m^3+a2m^2+a3m (mod 10) ≡ m(a1m^2+a2m+a3) (mod 10)。 由于 a1,a2,a3 在 Z/10Z 上独立均匀, xm 的分布由 gcd(m,10) 决定。 若 gcd(m,10)=1,则 xm 在 {0,1,2,...,9} 上均匀分布。 对应: m=1,3,7,9。 若 gcd(m,10)=2,则 xm 在 {0,2,4,6,8} 上均匀分布。 对应: m=2,4,6,8。 若 gcd(m,10)=5,则 xm 在 {0,5} 上均匀分布。 对应: m=5。 若 gcd(m,10)=10,则 xm 恒等于 0。 对应: m=10。 (2) 记: A=p1+p3+p7+p9, E=p2+p4+p6+p8, F=p5, Z=p10。 则: Qk = A/10 + 1_{k为偶数} E/5 + 1_{k=0或5} F/2 + 1_{k=0} Z。 具体为: Q0=A/10+E/5+F/2+Z。 Q1=A/10。 Q2=A/10+E/5。 Q3=A/10。 Q4=A/10+E/5。 Q5=A/10+F/2。 Q6=A/10+E/5。 Q7=A/10。 Q8=A/10+E/5。 Q9=A/10。 (3) 由第(2)问: Q0-Q1 = E/5+F/2+Z = (p2+p4+p6+p8)/5 + p5/2 + p10。 若: p2+p4+p5+p6+p8+p10>0, 则右边严格大于 0。 因此命题成立: Q0>Q1。 (4) 由: Q1=Q3=Q7=Q9=0, 而: Q1=Q3=Q7=Q9=A/10, 得: A=0。 所以: p1=p3=p7=p9=0。 这已经与 pi>0 矛盾。 即使放宽为 pi≥0,也会矛盾。 因为: Q2=E/5=1/8, 所以: E=5/8。 又: Q5=F/2=1/4, 所以: F=1/2。 于是: Q0=E/5+F/2+Z =1/8+1/4+Z =3/8+Z。 这不可能等于 1/4。 因此该观察分布不可能由任何合法的 p_i 产生。 结论: 不能唯一确定 p_i,因为根本不存在满足条件的 p_i。 (5) 严格地,由于 pi>0,应求: max over password inf over p_i>0 P(xm=0)。 若某密码不能保证所有 m=1,...,10 下 xm 都为 0, 则对手可以把不利的 m 的概率取到任意接近 1, 从而使 P(xm=0) 的下确界为 0。 因此要使下确界为 1,必须满足: a1m^3+a2m^2+a3m ≡ 0 (mod 10) 对所有 m=1,2,...,10 成立。 模 5 考察。 对 m=1,2,3,4,可除去 m,得: a1m^2+a2m+a3≡0 (mod 5)。 这是一个二次多项式在 F5 中有 4 个根, 因此必须是零多项式。 所以: a1≡a2≡a3≡0 (mod 5)。 因此每个 ai 只能是 0 或 5。 再模 2 考察。 由于 5≡1 (mod 2),所以要求: a1+a2+a3≡0 (mod 2)。 也就是说,三个位置中取 5 的个数必须为偶数。 因此所有最优密码为: 000,055,505,550。 结论: max inf P(xm=0)=1, 达到者为: 000,055,505,550。 ============================================================ 第二部分:随机游走、首达时间与繁殖次数分布 ============================================================ (6) 从 C 出发,第一步必到 B。 从 B 出发: 到 A 的概率为 2/3; 回 C 的概率为 1/3。 因此第一次繁殖时间 X1 只可能取偶数: P(X1=2k)=(1/3)^(k-1)(2/3),k=1,2,... 所以概率生成函数为: G1(z)=Σ_{k≥1} (1/3)^(k-1)(2/3) z^(2k) = (2z^2)/(3-z^2)。 因此: G1(z)=2z^2/(3-z^2)。 令 X1=2K,其中 K~Geom(2/3)。 所以: E(K)=3/2, Var(K)=3/4。 于是: E(X1)=3, Var(X1)=3。 (7) 每两次繁殖之间的时间间隔与 X1 同分布, 并且由强马尔可夫性可视为独立同分布。 因此: Xn = Y1+Y2+...+Yn, 其中 Yi 独立同分布,且 Yi~X1。 所以: Gn(z)=G1(z)^n = [2z^2/(3-z^2)]^n。 (8) 设: Xn=2Sn。 其中 Sn 是 n 个参数为 2/3 的几何分布之和, 所以 Sn 服从负二项分布。 若 t 为奇数,或 t<2n,则: P(Xn=t)=0。 若 t=2s,且 s≥n,则: P(Xn=2s)=C(s-1,n-1)(2/3)^n(1/3)^(s-n)。 其中 C(s-1,n-1) 表示组合数。 (9) 设 Y(t) 表示前 t 步内发生的繁殖次数。 每两个步长构成一次独立尝试: 第一步到 B; 第二步从 B 到 A 的概率为 2/3。 前 t 步中完整两步周期数为: floor(t/2)。 因此: Y(t)~Binomial(floor(t/2),2/3)。 所以: E[Y(t)] = (2/3)floor(t/2)。 渐近地: E[Y(t)] = t/3+O(1)。 (10) 每次繁殖后: 以概率 r 重置回 C; 以概率 1-r 留在当前 A。 从 C 到下一次 A 的期望时间为 3。 从 A 到下一次 A 的期望时间也为 3。 所以重置不影响期望间隔。 因此: E_r(Xn)=3n。 该式对所有 0≤r≤1 成立。 ============================================================ 第三部分:数表变换、线性代数与可达性 ============================================================ (11) 设: D=N-M。 令: S = D 的全体元素总和; R_a = D 的第 a 行元素和; C_b = D 的第 b 列元素和。 一次操作 T(i,j,ε) 对应矩阵 L_ij 的 ±1 倍。 所有可达差矩阵构成整数格: Λ=span_Z{L_ij}。 D 可达当且仅当: S≡0 (mod 2n-1), 并且令: K=S/(2n-1), 有: R_a≡K (mod n-1),对所有 a=1,...,n 成立; C_b≡K (mod n-1),对所有 b=1,...,n 成立。 即: D 可达 ⇔ { S≡0 (mod 2n-1), R_a≡S/(2n-1) (mod n-1), for all a, C_b≡S/(2n-1) (mod n-1), for all b. } 必要性来自单次操作对总和、行和、列和的改变规律。 充分性可由 Smith 标准形或格指数证明: 操作矩阵生成格 Λ 在 Z^(n^2) 中的指数为: (2n-1)(n-1)^(2n-2)。 上述同余条件定义的格点集合也具有同样指数。 因为 Λ 包含于该集合且指数相同, 故二者相等。 因此上述条件为充要条件。 (12) 本题 n=11。 完整不变量体系为: S≡0 (mod 21)。 若: K=S/21, 则所有行和、列和还必须满足: R_a≡K (mod 10),对所有行 a 成立; C_b≡K (mod 10),对所有列 b 成立。 初始矩阵总和为: 100·13+20·(-130)+1300=0。 目标全 1 矩阵总和为: 121。 因此差矩阵总和: S=121。 但是: 121≡16 (mod 21)。 所以完整不变量体系的第一条已经失败。 因此目标不可达。 结论: 不能变成全 1 数表。 注意: 不能只说“总和模 21 不变”, 还应明确完整不变量体系包括: 总和模 21; 所有行和模 10; 所有列和模 10。 (13) 从零矩阵到全 1 矩阵时: D=J。 此时: S=n^2。 必要条件: 2n-1 | n^2。 但: gcd(n,2n-1)=1。 所以若 2n-1 | n^2,则必须: 2n-1 | 1。 因此: 2n-1=1, 即: n=1。 所以: 从零矩阵到全 1 矩阵可达当且仅当 n=1。 对题设 n≥2,均不可达。 (14) 新操作为: 选择一行加 1,选择一列减 1,交叉格不变。 一次操作对应: G_ij = R_i - C_j。 所有可达矩阵 A 必须形如: A_ab = u_a - v_b。 并且由于每次操作总和不变,所以: sum_{a,b} A_ab = 0。 等价地,A 可达当且仅当: 1. 全体元素总和为 0; 2. 对任意 a,c,b,d,有: A_ab + A_cd = A_ad + A_cb。 第二条表示所有 2×2 混合差为 0, 等价于 A_ab=u_a-v_b 的可分离形式。 因此充要条件为: sum A_ab=0, 且 A_ab + A_cd = A_ad + A_cb 对所有合法指标成立。 (15) 模 q 状态空间为: G=(Z/qZ)^(n^2)。 设 H_q 为模 q 意义下由所有操作矩阵生成的子群。 随机过程的不可约类就是 G/H_q 的各个陪集。 整数商群的 Smith 标准形为: Z^(n^2)/Λ ≅ (Z_(n-1))^(2n-3) ⊕ Z_((n-1)(2n-1))。 因此: G/H_q ≅ (Z_gcd(q,n-1))^(2n-3) ⊕ Z_gcd(q,(n-1)(2n-1))。 又因为: gcd(n-1,2n-1)=1, 所以也可写成: G/H_q ≅ (Z_gcd(q,n-1))^(2n-2) ⊕ Z_gcd(q,2n-1)。 不可约类数量为: gcd(q,n-1)^(2n-2) · gcd(q,2n-1)。 若 q 为奇数,分解由 q 与 n-1、2n-1 的公共因子决定。 若 q 为偶数,由于 2n-1 恒为奇数,偶因子只可能来自 gcd(q,n-1)。 当 n 为奇数时,n-1 为偶数,模 2 层面可能出现额外不变量。 当 n 为偶数时,n-1 为奇数,模 2 层面不产生这类行列奇偶不变量。 ============================================================ 第四部分:空间向量、凸几何与极值 ============================================================ (16) 设: rho=tanθ。 点 P∈Aθ 时,设 OP=(a,b,c)。 由: OP·j=1 得: b=1。 又: angle(OP,j)=θ, 所以: 1/|OP|=cosθ, 即: |OP|=secθ。 因此: a^2+c^2=tan^2θ=rho^2。 所以: Aθ={(a,1,c):a^2+c^2=rho^2}。 设: OT=(x,y,0)。 存在 P∈Aθ 使 OP·OT=2, 等价于存在 a∈[-rho,rho] 使: ax+y=2。 这等价于: |2-y|≤rho|x|。 又: |OT-j|=R 等价于: x^2+(y-1)^2=R^2。 因此所有可能 T 的等价刻画为: x^2+(y-1)^2=R^2, |2-y|≤tanθ |x|。 (17) 令: rho=tanθ, A=1+rho^2, s=y-1。 则圆方程为: x^2+s^2=R^2。 约束为: |1-s|≤rho|x|。 平方得: (1-s)^2≤rho^2(R^2-s^2)。 整理为: (1+rho^2)s^2-2s+1-rho^2R^2≤0。 该不等式有解当且仅当: R≥1/sqrt(1+rho^2)=cosθ。 所以: 若 R<cosθ,则无解。 若 R≥cosθ,令: h=sqrt((1+rho^2)R^2-1)。 则 x 的取值集合关于 0 对称。 定义: u_min = |h-rho|/(1+rho^2)。 定义: u_max = R,若 rho R≥1; (rho+h)/(1+rho^2),若 rho R<1。 于是: 若 u_min>0,则: x∈[-u_max,-u_min] ∪ [u_min,u_max]。 若 u_min=0,则: x∈[-u_max,u_max]。 这就是 OT·i=x 的完整取值范围。 (18) 当: θ=π/4,R=2, 有: rho=1, 1+rho^2=2, h=sqrt(2·4-1)=sqrt7。 又: rho R=2≥1, 所以: u_max=2, u_min=(sqrt7-1)/2。 因此: x∈[-2,-(sqrt7-1)/2] ∪ [(sqrt7-1)/2,2]。 即: x∈[-2,(1-sqrt7)/2] ∪ [(sqrt7-1)/2,2]。 这与原题结果一致。 (19) 固定 R>0。 由于: x^2+(y-1)^2=R^2, 所以: |x|≤R。 因此 x 的可取区间总长度不超过: 2R。 当 θ→π/2 时: tanθ→∞, 约束: |2-y|≤tanθ|x| 趋于几乎不限制圆上的点。 因此可取区间长度的上确界为: 2R。 若 R=1,则当 θ≥π/4 时, x 的可取范围可以达到完整区间: [-1,1], 长度为 2。 若 R≠1,则最大长度 2R 一般不能在 0<θ<π/2 内真正达到, 只能在 θ→π/2 时逼近。 结论: sup length=2R。 R=1 时最大值可达; R≠1 时一般只有上确界,不在开区间内达到。 (20) 若要求: 对所有 P∈Aθ 都有 OP·OQ=2, 设: OQ=(X,Y,Z)。 又: OP=(a,1,c),a^2+c^2=rho^2。 则: aX+Y+cZ=2 对圆上所有 (a,c) 成立。 这只有在: X=0, Z=0, Y=2 时成立。 因此: Q=(0,2,0)。 若 T=(x,y,0),则唯一可能: T=(0,2,0)。 此时: |OT-j|=|(0,2,0)-(0,1,0)|=1。 所以: 若 R=1,唯一解为 T=(0,2,0); 若 R≠1,无解。 ============================================================ 第五部分:错误证明识别、修复与反例构造 ============================================================ (21) 该证明不正确。 错误在于: 它把“总和模 2n-1 是不变量”这个必要条件, 误当成了充要条件。 总和模 2n-1 只是可达性的一个必要条件, 并不能保证可达。 还存在行和、列和模 n-1 的不变量。 (22) 第(13)问的正确结论是: 从零矩阵到全 1 矩阵可达当且仅当 n=1。 对所有 n≥2,均不可达。 (23) 取 n=3。 此时: 2n-1=5。 考虑目标矩阵: A = [1 1 1 1 1 0 0 0 0] 该矩阵总和为 5, 满足: 5≡0 (mod 5)。 所以它满足总和模 5 的必要条件。 但是完整不变量要求: K=S/(2n-1)=5/5=1。 每一行行和都应满足: R_a≡1 (mod n-1)=1 (mod 2)。 该矩阵第二行和为: 2≡0 (mod 2), 不满足要求。 所以该矩阵不可达。 这说明: 总和模 2n-1 不变量不是完整不变量。 (24) 设计新操作规则: 固定正整数 q。 允许以下两类操作: 操作 A: 选择两个格子,一个加 1,另一个减 1。 操作 B: 选择任意一个格子,加 q 或减 q。 操作 A 保持全表总和不变。 操作 B 使全表总和改变 q 的整数倍。 同时,操作 A 可以在总和固定的情况下把数值在不同格子间转移; 操作 B 可以调节总和模 q 不变的所有总和层级。 因此从 M 到 N 可达当且仅当: sum(N)-sum(M)≡0 (mod q)。 所以: 全表总和模 q 是完整不变量。 (25) 最能区分强弱 AI 模型的三个小问是: (11),(15),(17)。 理由: 第(11)问要求给出完整可达性刻画。 弱模型通常只能发现总和不变量; 强模型需要发现总和、行和、列和的完整同余体系,并证明充要性。 第(15)问要求在模 q 状态空间中进行不可约分解。 这需要有限阿贝尔群、生成子群、Smith 标准形和随机过程状态空间的综合理解。 第(17)问要求完成参数化空间几何极值。 这需要将三维向量条件降维为平面圆与不等式,再按 θ、R 分类讨论。 因此这三问最能区分强弱模型。 评分 { "exam_name": "AI_Model_Advanced_Math_Reasoning_Benchmark", "total_score": 100, "sections": [ { "section_id": 1, "section_name": "Modulo_Distribution_and_Inference", "max_score": 20, "questions": [ { "question_id": "1", "max_score": 4, "criteria": [ { "id": "1.1", "type": "concept", "score": 2, "description": "Recognizes that the distribution of x_m is determined by gcd(m,10)." }, { "id": "1.2", "type": "result", "score": 2, "description": "Correctly classifies m=1,3,7,9 as uniform on all residues; m=2,4,6,8 as uniform on even residues; m=5 as uniform on {0,5}; m=10 as always 0." } ] }, { "question_id": "2", "max_score": 4, "criteria": [ { "id": "2.1", "type": "notation", "score": 1, "description": "Defines A=p1+p3+p7+p9, E=p2+p4+p6+p8, F=p5, Z=p10 or equivalent grouping." }, { "id": "2.2", "type": "formula", "score": 3, "description": "Correctly gives Q_k = A/10 + indicator_even(k)E/5 + indicator_{k in {0,5}}F/2 + indicator_{k=0}Z." } ] }, { "question_id": "3", "max_score": 3, "criteria": [ { "id": "3.1", "type": "calculation", "score": 2, "description": "Correctly computes Q0-Q1=(p2+p4+p6+p8)/5+p5/2+p10." }, { "id": "3.2", "type": "conclusion", "score": 1, "description": "Correctly concludes Q0>Q1 under the stated positive mass condition." } ] }, { "question_id": "4", "max_score": 4, "criteria": [ { "id": "4.1", "type": "inference", "score": 2, "description": "Uses Q1=Q3=Q7=Q9=0 to derive A=0." }, { "id": "4.2", "type": "contradiction", "score": 2, "description": "Correctly proves that the observed distribution is impossible, even allowing nonnegative p_i." } ] }, { "question_id": "5", "max_score": 5, "criteria": [ { "id": "5.1", "type": "rigor", "score": 1, "description": "Uses infimum rather than minimum because all p_i are strictly positive." }, { "id": "5.2", "type": "number_theory", "score": 2, "description": "Correctly reduces the all-m condition modulo 5 and derives a1,a2,a3 are all 0 modulo 5." }, { "id": "5.3", "type": "number_theory", "score": 1, "description": "Correctly applies the modulo 2 parity condition." }, { "id": "5.4", "type": "result", "score": 1, "description": "Correctly identifies all optimal passwords: 000, 055, 505, 550." } ] } ] }, { "section_id": 2, "section_name": "Random_Walk_Generating_Functions", "max_score": 20, "questions": [ { "question_id": "6", "max_score": 5, "criteria": [ { "id": "6.1", "type": "model", "score": 2, "description": "Identifies X1=2K where K is geometric with parameter 2/3." }, { "id": "6.2", "type": "formula", "score": 2, "description": "Correctly derives G1(z)=2z^2/(3-z^2)." }, { "id": "6.3", "type": "result", "score": 1, "description": "Correctly gives E(X1)=3 and Var(X1)=3." } ] }, { "question_id": "7", "max_score": 4, "criteria": [ { "id": "7.1", "type": "markov_property", "score": 2, "description": "Recognizes independent identical inter-birth intervals." }, { "id": "7.2", "type": "formula", "score": 2, "description": "Correctly gives Gn(z)=[2z^2/(3-z^2)]^n." } ] }, { "question_id": "8", "max_score": 4, "criteria": [ { "id": "8.1", "type": "distribution", "score": 3, "description": "Correctly derives the negative binomial formula for P(Xn=2s)." }, { "id": "8.2", "type": "support", "score": 1, "description": "Correctly states probability is zero for odd t or t<2n." } ] }, { "question_id": "9", "max_score": 4, "criteria": [ { "id": "9.1", "type": "model", "score": 2, "description": "Identifies floor(t/2) independent Bernoulli trials with success probability 2/3." }, { "id": "9.2", "type": "result", "score": 2, "description": "Correctly gives E[Y(t)]=(2/3)floor(t/2) and t/3+O(1)." } ] }, { "question_id": "10", "max_score": 3, "criteria": [ { "id": "10.1", "type": "analysis", "score": 2, "description": "Recognizes both reset-to-C and stay-at-A lead to expected next birth time 3." }, { "id": "10.2", "type": "result", "score": 1, "description": "Correctly gives E_r(Xn)=3n for all 0<=r<=1." } ] } ] }, { "section_id": 3, "section_name": "Matrix_Reachability_and_Invariants", "max_score": 25, "questions": [ { "question_id": "11", "max_score": 8, "criteria": [ { "id": "11.1", "type": "invariant", "score": 2, "description": "States total sum congruence modulo 2n-1." }, { "id": "11.2", "type": "invariant", "score": 2, "description": "States row sum congruences modulo n-1." }, { "id": "11.3", "type": "invariant", "score": 2, "description": "States column sum congruences modulo n-1." }, { "id": "11.4", "type": "rigor", "score": 2, "description": "Provides sufficiency via Smith normal form, lattice index equality, or equivalent argument." } ] }, { "question_id": "12", "max_score": 4, "criteria": [ { "id": "12.1", "type": "invariant_system", "score": 2, "description": "States the full invariant system: total sum modulo 21 and row/column sums modulo 10." }, { "id": "12.2", "type": "conclusion", "score": 2, "description": "Correctly computes S=121 and concludes non-reachability." } ] }, { "question_id": "13", "max_score": 3, "criteria": [ { "id": "13.1", "type": "number_theory", "score": 2, "description": "Uses 2n-1 divides n^2 and gcd(n,2n-1)=1 to force n=1." }, { "id": "13.2", "type": "result", "score": 1, "description": "Correctly states zero-to-all-ones is reachable iff n=1." } ] }, { "question_id": "14", "max_score": 4, "criteria": [ { "id": "14.1", "type": "structure", "score": 2, "description": "Identifies reachable matrices as A_ab=u_a-v_b." }, { "id": "14.2", "type": "condition", "score": 2, "description": "Gives equivalent conditions: total sum zero and all 2x2 mixed differences zero." } ] }, { "question_id": "15", "max_score": 6, "criteria": [ { "id": "15.1", "type": "group_theory", "score": 2, "description": "Identifies irreducible classes as cosets of the generated subgroup H_q." }, { "id": "15.2", "type": "smith_normal_form", "score": 2, "description": "Correctly states quotient structure using Smith normal form." }, { "id": "15.3", "type": "counting", "score": 1, "description": "Correctly gives number of irreducible classes as gcd(q,n-1)^(2n-2) gcd(q,2n-1)." }, { "id": "15.4", "type": "case_analysis", "score": 1, "description": "Correctly discusses odd q versus even q." } ] } ] }, { "section_id": 4, "section_name": "Vector_Geometry_and_Extrema", "max_score": 25, "questions": [ { "question_id": "16", "max_score": 5, "criteria": [ { "id": "16.1", "type": "geometry", "score": 2, "description": "Correctly models A_theta as (a,1,c) with a^2+c^2=tan^2(theta)." }, { "id": "16.2", "type": "existence", "score": 2, "description": "Correctly converts existence of P to |2-y|<=tan(theta)|x|." }, { "id": "16.3", "type": "circle", "score": 1, "description": "Correctly gives x^2+(y-1)^2=R^2." } ] }, { "question_id": "17", "max_score": 8, "criteria": [ { "id": "17.1", "type": "existence_condition", "score": 2, "description": "Correctly states no solution when R<cos(theta)." }, { "id": "17.2", "type": "parameterization", "score": 2, "description": "Defines rho=tan(theta), h=sqrt((1+rho^2)R^2-1), and derives u_min." }, { "id": "17.3", "type": "case_analysis", "score": 2, "description": "Correctly gives u_max depending on whether rho R>=1." }, { "id": "17.4", "type": "result", "score": 2, "description": "Correctly states the x-range as symmetric intervals." } ] }, { "question_id": "18", "max_score": 3, "criteria": [ { "id": "18.1", "type": "substitution", "score": 2, "description": "Correctly substitutes theta=pi/4 and R=2." }, { "id": "18.2", "type": "result", "score": 1, "description": "Correctly recovers [-2,(1-sqrt7)/2] union [(sqrt7-1)/2,2]." } ] }, { "question_id": "19", "max_score": 5, "criteria": [ { "id": "19.1", "type": "upper_bound", "score": 1, "description": "Observes total x-interval length is at most 2R." }, { "id": "19.2", "type": "limit", "score": 2, "description": "Shows the supremum 2R is approached as theta approaches pi/2." }, { "id": "19.3", "type": "attainment", "score": 2, "description": "Correctly handles attainment: R=1 with theta>=pi/4 attains; R!=1 generally only has supremum." } ] }, { "question_id": "20", "max_score": 4, "criteria": [ { "id": "20.1", "type": "universal_condition", "score": 2, "description": "Correctly derives Q=(0,2,0) from the condition holding for all P." }, { "id": "20.2", "type": "result", "score": 2, "description": "Correctly concludes unique solution exists iff R=1." } ] } ] }, { "section_id": 5, "section_name": "Error_Detection_and_Counterexamples", "max_score": 10, "questions": [ { "question_id": "21", "max_score": 2, "criteria": [ { "id": "21.1", "type": "error_detection", "score": 2, "description": "Identifies the proof error: a necessary invariant was treated as sufficient." } ] }, { "question_id": "22", "max_score": 2, "criteria": [ { "id": "22.1", "type": "result", "score": 2, "description": "States the correct conclusion: reachable iff n=1." } ] }, { "question_id": "23", "max_score": 2, "criteria": [ { "id": "23.1", "type": "counterexample", "score": 2, "description": "Gives a valid example satisfying total-sum invariant but violating row or column invariants." } ] }, { "question_id": "24", "max_score": 2, "criteria": [ { "id": "24.1", "type": "construction", "score": 2, "description": "Designs operations for which total sum modulo q is a complete invariant and justifies completeness." } ] }, { "question_id": "25", "max_score": 2, "criteria": [ { "id": "25.1", "type": "meta_reasoning", "score": 2, "description": "Selects plausible high-discrimination questions and justifies the choices." } ] } ] } ] } 2 个帖子 - 1 位参与者 阅读完整话题