📄 Resume
李为君 | Weijun Li
DevOps / SRE Intern · M.S. in CS @ USC
Private Contact (Authorized Access)
Need access? Email me first for authorization. After approval, enter the token to unlock phone and other private contact details.
🎓 Education
University of Southern California (USC)
M.S. in Computer Science
Los Angeles, CA
Hangzhou Dianzi University (HDU)
B.E. in Network Engineering
Hangzhou, Zhejiang
- GPA: 4.38/5.00
- Top 5%
🧭 Core Competencies
- GitOps / K8s: 搭建 ArgoCD App-of-Apps 分层交付体系,统一管理 dev / staging / prod 三套环境与多组件依赖编排。
- CI/CD: 重构 GitHub Actions + Buildx + GHCR 流水线并启用分层缓存,镜像构建耗时降低约 66%。
- 可观测性: 落地 Loki + Fluent-Bit + Grafana 日志聚合方案,结合 Traefik 实现链路追踪与告警。
- AI Infra: 累计调度 100+ GPU 实例 (AliCloud / AutoDL / RunPod),主导 Conda -> uv 环境治理。
- 云原生安全: 实践 Sealed Secrets + cert-manager + DNS01,SSH / GPG 密钥管理,实现密钥加密入库与 TLS 证书自动轮转。
🚀 Projects
RevieU | 云原生点评应用 (Cloud Native Review App)
Tech Lead / Infrastructure | Team of 13
https://github.com/RevieU-Corp- 架构选型:选择 K3s(资源受限场景)与 ArgoCD(声明式部署),并从 ELK 迁移至 Loki 以降低资源占用;结合 Claude Code / Cursor 提升交付效率。
- 基础设施:独立完成 K3s 多节点集群建设,设计 Root App + Platform / Application 分层架构,按 sync-wave 编排组件依赖。
- 网络排查:修复 flannel + WireGuard 跨节点连通性问题,保障多节点集群稳定运行。
- 媒体链路:落地 Cloudflare R2 (S3 API) 直传方案,打通后端 presigned URL 签发与前端 PUT 上传流程。
PGTN | 时序异常检测 (Time Series Anomaly Detection)
First Author / AI Infra
https://github.com/LosFurina/PGTN- 实验工程:设计标准化实验目录结构,自动归档配置、权重、日志、指标与可视化结果;通过 SSHFS 挂载远程 GPU 服务器。
- GPU 调度:设计任务级弹性调度策略(非固定配额),支持 4-10 卡 DataParallel 训练,累计调度 100+ 实例。
- 模型研究:提出双通道 (Variable + Temporal) Graph Transformer 架构,在 SWaT / WADI / SMD / PSM 上 F1 相比 10 个 baseline 提升 40%+。
个人基础设施 | Personal Infrastructure
Owner / Operator
- 服务托管:管理多台自有服务器,使用 Docker Compose 部署 8+ 自托管服务,稳定运行 2+ 年。
- 流量治理:整合 Cloudflare (Tunnel / DNS / Workers / R2) + Let's Encrypt,实现域名、证书、对象存储一体化治理。
- 缓存监控:部署 Redis 缓存高频媒体文件,配置资源监控阈值告警并推送至 Discord / 邮件。
- 技术博客:基于 Astro 搭建,累计发布 90+ 篇技术文章。
💼 Experience
浙江元乙智能科技有限公司
SDE / AI Infra Intern
Hangzhou, Zhejiang
- 模型部署:参与 VoiceClone / Wav2Lip 工程化落地,维护 GitHub Actions + Docker 发布流水线。
- 环境治理:负责团队 GPU 开发环境,解决 Python / CUDA / 驱动版本冲突,降低环境故障率。
🛠 Skills
编程语言
云原生
AI / 工具
Linux / 网络
云平台
🏆 Honors
浙江省政府奖学金(前 2%,连续两年)华为智能基座奖学金校一等奖学金(6次)大学生创新创业项目(负责人)