WWW.YOUINFO.SITE
标签聚合 细致

/tag/细致

LinuxDo 最新话题 · 2026-06-01 14:57:05+08:00 · tech

我是指在新硬盘装完系统后从老硬盘捞数据到新硬盘 很方便 分析得很细致 老C盘各种陈年老垢错综复杂自己清理不了一点 gpt会自己分析是啥内容 遇到不懂的还会自己去搜索 然后自己移植回新的C盘的对应位置 主要文件是: .mogrt:PR 动态图形模板,约 4.32GB .gif / .mp4 / .png:预览和素材,约 8GB+ .prproj:PR 工程模板,约 1.16GB .cube / .3dl:LUT 调色文件 .wav:音频素材 我都完全忘了啥时候还搞过这个了 他居然能自己分析出来 7 个帖子 - 5 位参与者 阅读完整话题

v2ex.com · 2026-04-20 17:38:27+08:00 · tech

( GIF 图有压缩,GitHub 上有视频) CodeX 的 Computer Use 在第一次安装时,权限申请是通过拖动到系统设置里实现的。发布的第一天,这个交互当时看到了感觉太优雅了,于是复刻了一版,开源地址放在帖子最下方了。 ## 和 Computer Use 相比,复刻了以下功能: - 点到点的模糊转场 - 可以随着系统设置框任意拖动 - 「上箭头」随着拖动的加速度弹性跳动 - 在开启「台前调度」的情况下依然支持 ## 不同点 - 增加至 6 种权限申请 - 动画转场用单个控件实现,Computer Use 是两个控件在顶点切换透明度,逐帧看的话 CU 会出现两个卡片没有完全重叠好的情况 - 「上箭头」的弹性跳动时机、幅度是自定义的,这个部分不知道 CU 是怎么实现的,所以是按照视觉效果模拟的 - 对系统设置框的位置判定是单独实现的,确保无论系统设置是「关闭」、「最小化」、「已开启」,都能正确计算终点位置。 - 动画转场的曲线自定义:抛物线,顶点处模糊程度最大,且在顶点处完成卡片更新 ## 相比于社区其他项目 - 完成度高(点到点动画、取消逻辑、箭头弹跳、台前调度这几个其他库没有全部都实现的) - 支持范围广(从 2 个权限增加到 6 个,给了多种接入示例) BTW ,分享一下实现过程中学到的小知识: - macOS 的系统设置里,如果有 加号+ 和 减号- ,那么就代表这个权限是可以拖动放进去的,目前一共找到六种这样的权限(如果有发现更多会再加进去) - 软件里面可以自定义自身在台前调度里的行为 CodeX 这个交互,我觉得最优雅的地方就在于这个能力一直在 macOS 里存在,真实现起来也不见得有多么多么复杂,但是从来也没有发现哪个软件实现了。 如果想在 APP 里集成,可以参考链接里的文档,或者直接把链接丢给 AI 去接入就行。 最后,欢迎大家点个 Star ,有意见或者建议也非常欢迎提 PR ## 一些相关链接 X 帖子: https://x.com/rikolabdotcom/status/2046145989225189753 实现的一些细节: https://rikko.top/posts/20260420-%E5%A4%8D%E5%88%BBComputerUse%E7%9A%84%E6%9D%83%E9%99%90%E7%94%B3%E8%AF%B7/ ## 开源地址 Github: https://github.com/riko2chen/AskForPermission

www.v2ex.com · 2026-04-20 05:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 05:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 05:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 04:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 03:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 03:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 02:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 01:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

www.v2ex.com · 2026-04-20 00:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学

v2ex.com · 2026-04-19 23:44:31+08:00 · tech

在 v2 上一个帖子看到了一个远程招聘的帖子,邮件后和老板聊了几个小时感觉还不错,然后的话,给我出了个笔试题目(如下): 请在 3- 5 个工作日(最长不可超过 7 个工作日的时间内),设计并实现一个可以在 Mac 和 Windows 两 个系统上都能运行的,能够完成实时对话翻译应用的 Demo ,用于解决需要大量文本录入和文本翻译的 需求。 目标用户为重度写作用户,使用场景为在桌面端每天需要写作 3000 字以上,可通过语音录入文字,并 可以将文字翻译为指定的语言 具体需求: 应用启动后自动进入文字/语音输入界面 可通过键盘和语音两种方式输入文字 可自动识别输入的文字和语音为何种语音,无需用户自己设置和切换 支持按钮启动语音识别,也可支持 Ctrl/Cmd + Tab 快捷键启动语音识别 默认不启动翻译,需用户手动启动,将输入的文字自动翻译为指定的语言文字 可切换多种翻译的目标语言,需支持中文、英文、日文、韩文、法文、德文、俄 文、西班牙文,意大利文等 9 种语言 对话界面交互友好,信息清晰直观 能显著区分原文和译文,译文应方便识别、阅读和复制 输入文字的界面可借鉴对话聊天界面,即非只能查看当前输入信息,应能够查看 历史内容 点击某个历史内容,可以重新翻译为另外的一种语言,并不新增记录,只对历史 内容的翻译做更新即可 语音识别模型和翻译模型都需要使用本地模型,即能够无网络使用,以确保信息 安全 语音识别模型和翻译模型可以通过下载的方式按需加载(比如通过 HuggingFace , 需要法文翻译,才需要下载法文模型),而非打包在安装包中 能够在 Mac 和 Windows 两个系统上运行,可完成至少三次以上的内容输入和自动 翻译 可使用 AI 辅助完成此项任务,包括但不限于界面设计、技术选型、架构设计、代 码实现、以及测试 交付: 提交 Github 仓库链接( Clone 后可以编译运行) 技术选型说明:为使该 Demo 达到最佳体验的技术选型,均可阐述。包括但不限 于所选语音识别模型和翻译模型的原因,所选跨平台开发框架的原因等 架构设计说明: AI 使用方法与总结: 介绍完成此任务的过程中,在哪些环节使用了 AI ,分别使用了哪些 AI 工具 和 Agent 回顾此工作,哪些环节还可以改进使用 AI 的效率和质量 加分项 流式语音输入和流式翻译。 即给用户营造实时输入和实时翻译的体验,无需等待 数秒之后才出现内容 性能分析:对 Demo 的内存、CPU 、GPU 等性能进行分析,给出以后需要优化之 处 阐述个人的软件设计哲学