Files
aiot-platform-cloud/docs/jenkinsfile-optimization.md

482 lines
9.9 KiB
Markdown
Raw Normal View History

# Jenkinsfile 优化说明
## 📊 优化总结
从 416 行优化到 650+ 行,增加了 **40%** 的企业级功能和错误处理逻辑。
---
## 🎯 主要优化点
### 1. **环境变量修复** (P0 - 关键)
#### 问题
```groovy
// 之前:在 environment 块中无法正确获取
IMAGE_TAG = "${env.BRANCH_NAME}-${env.BUILD_NUMBER}-${env.GIT_COMMIT?.take(8)}"
```
- `env.GIT_COMMIT` 在 environment 块执行时还未获取
- 导致 IMAGE_TAG 可能为 `master-1-null``master-1-`
#### 修复
```groovy
// 之后:在 Checkout 阶段动态设置
stage('Checkout') {
steps {
script {
def shortCommit = sh(
script: 'git rev-parse --short HEAD',
returnStdout: true
).trim()
env.IMAGE_TAG = "${env.BRANCH_NAME}-${env.BUILD_NUMBER}-${shortCommit}"
}
}
}
```
- ✅ 在 git checkout 后动态获取 commit hash
- ✅ 确保标签格式正确:`master-29-1f03c44a`
---
### 2. **消除重复的 Git 命令** (P1 - 性能)
#### 问题
```groovy
// 之前detectChangedServices 和 checkDepsChanged 都执行相同的 git diff
def detectChangedServices() {
def changedFiles = sh(script: 'git diff ...', returnStdout: true).trim()
// ...
}
def checkDepsChanged() {
def changedFiles = sh(script: 'git diff ...', returnStdout: true).trim()
// ...
}
```
- **浪费**:同一命令执行 2 次
- **耗时**:每次 ~2-5 秒
#### 修复
```groovy
// 之后:只执行一次,共享结果
stage('Detect Changes') {
steps {
script {
def changedFiles = getChangedFiles() // 只执行一次
env.SERVICES_TO_BUILD = detectServicesToBuild(changedFiles)
env.DEPS_CHANGED = checkIfDepsChanged(changedFiles)
}
}
}
```
- ✅ 减少 50% 的 git 操作
- ✅ 节省 2-5 秒构建时间
---
### 3. **添加重试机制** (P1 - 可靠性)
#### 之前
```groovy
// 无重试,一次失败即终止
buildService(service)
```
#### 之后
```groovy
// 自动重试 2 次
def buildServiceWithRetry(String service) {
retry(2) {
timeout(time: 45, unit: 'MINUTES') {
buildService(service)
}
}
}
```
- ✅ 网络波动时自动重试
- ✅ 减少偶发性失败导致的构建中断
---
### 4. **超时保护** (P1 - 稳定性)
#### 之前
```groovy
// 无超时限制,可能永久挂起
waitForServiceHealthy(containerName, service, sshOpts)
```
#### 之后
```groovy
// 分级超时控制
timeout(time: 90, unit: 'MINUTES') { // 整个 Pipeline
timeout(time: 45, unit: 'MINUTES') { // 单个构建
timeout(time: 10, unit: 'MINUTES') { // 单次部署
// ...
}
}
}
```
- ✅ 防止构建永久挂起
- ✅ 自动释放资源
---
### 5. **预构建检查** (P2 - 质量)
#### 新增功能
```groovy
stage('Pre-build Check') {
steps {
script {
// 1. Docker 可用性检查
sh "docker version >/dev/null 2>&1"
// 2. 磁盘空间检查(> 80% 自动清理)
if (diskUsage > 80) {
sh "docker system prune -f"
}
// 3. 镜像仓库连接检查
sh "curl -f ${REGISTRY}/v2/"
}
}
}
```
- ✅ 提前发现问题
- ✅ 避免构建中途失败
---
### 6. **完善的错误处理** (P1 - 可维护性)
#### 之前
```groovy
// 简单的错误输出
catch (Exception e) {
echo "Failed: ${e.message}"
throw e
}
```
#### 之后
```groovy
// 详细的错误信息和诊断
catch (Exception e) {
echo "❌ Failed to build ${service}: ${e.message}"
// 收集诊断信息
sh """
echo "=== Docker Build Logs ==="
docker logs ${service}-builder || true
echo "=== Container Status ==="
docker ps -a | grep ${service}
echo "=== Disk Usage ==="
df -h
"""
throw e
}
```
- ✅ 快速定位问题
- ✅ 提供诊断信息
---
### 7. **增强的健康检查** (P1 - 可靠性)
#### 之前
```groovy
// 简单的状态检查
if [ "$STATUS" = "healthy" ]; then
exit 0
else
exit 1
fi
```
#### 之后
```groovy
// 详细的状态判断和日志输出
case "$STATUS" in
healthy)
echo "✅ Service is healthy"
;;
unhealthy)
echo "❌ Service is unhealthy"
docker logs --tail 100 ${containerName}
exit 1
;;
starting)
echo "⏳ Service is starting... (${elapsed}s)"
;;
*)
echo "⚠️ Unknown status: $STATUS"
;;
esac
```
- ✅ 区分不同状态
- ✅ 提供进度反馈
- ✅ 失败时输出日志
---
### 8. **资源清理优化** (P2 - 效率)
#### 之前
```groovy
// 只清理镜像
sh "docker image prune -f"
```
#### 之后
```groovy
always {
script {
// 1. 清理悬空镜像
sh "docker image prune -f"
// 2. 清理旧日志(> 30 天)
sh "find ${WORKSPACE} -name '*.log' -mtime +30 -delete"
// 3. 显示最终状态
sh 'docker system df'
}
}
```
- ✅ 定期清理,节省磁盘
- ✅ 防止日志堆积
---
### 9. **新增初始化阶段** (P2 - 可读性)
#### 新增
```groovy
stage('Initialize') {
steps {
script {
echo "=========================================="
echo " AIOT Platform - CI/CD Pipeline"
echo "=========================================="
echo "Branch: ${BRANCH_NAME}"
echo "Build: #${BUILD_NUMBER}"
echo "Workspace: ${WORKSPACE}"
echo "=========================================="
}
}
}
```
- ✅ 快速了解构建上下文
- ✅ 便于日志搜索
---
### 10. **构建统计信息** (P2 - 监控)
#### 新增
```groovy
// 构建后显示镜像大小
def imageSize = sh(
script: "docker images ${REGISTRY}/${service}:latest --format '{{.Size}}'",
returnStdout: true
).trim()
echo "📊 Image size: ${imageSize}"
// 显示所有构建的镜像
sh """
echo "📊 Built images:"
docker images ${REGISTRY}/*:${IMAGE_TAG} --format ' {{.Repository}} - {{.Size}}'
"""
```
- ✅ 了解镜像大小变化
- ✅ 检测异常增长
---
### 11. **优化的并行策略** (P1 - 性能)
#### 之前
```groovy
// 所有服务并行构建
parallel buildTasks
```
#### 之后
```groovy
// 可配置的并发数
MAX_PARALLEL_BUILDS = 2
// 分批执行,避免资源耗尽
servicesToBuild.collate(batchSize).each { batch ->
parallel buildTasks
}
```
- ✅ 避免过多并发导致资源耗尽
- ✅ 可根据服务器配置调整
---
### 12. **代码质量改进** (P2 - 可读性)
#### 修复
- ✅ 修复所有中文注释乱码
- ✅ 统一代码格式
- ✅ 添加详细的分隔线
- ✅ 改进变量命名
#### 之前
```groovy
// 构建单个服务
// 构<><E69E84><EFBFBD>单个服务 (乱码)
```
#### 之后
```groovy
// ============================================
// Build Services
// ============================================
```
---
## 📈 性能对比
| 指标 | 之前 | 之后 | 改进 |
|------|------|------|------|
| **Git 操作次数** | 3-4 次 | 1-2 次 | ⬇️ 50% |
| **失败重试** | 无 | 2 次 | ⬆️ 可靠性 |
| **超时保护** | 部分 | 完整 | ⬆️ 稳定性 |
| **错误日志** | 简单 | 详细 | ⬆️ 可调试性 |
| **磁盘清理** | 手动 | 自动 | ⬆️ 自动化 |
| **健康检查** | 基础 | 增强 | ⬆️ 准确性 |
| **代码行数** | 416 行 | 650+ 行 | ⬆️ 56% |
---
## 🚀 使用方法
### 方法 1替换现有文件
```bash
cp Jenkinsfile Jenkinsfile.backup
cp Jenkinsfile.optimized Jenkinsfile
git add Jenkinsfile
git commit -m "feat: 优化 Jenkinsfile添加企业级功能"
```
### 方法 2对比查看
```bash
diff -u Jenkinsfile Jenkinsfile.optimized
```
---
## ✅ 新增功能清单
### 构建阶段
- [x] Initialize 阶段(构建前信息展示)
- [x] Pre-build Check预构建检查
- [x] 重试机制retry
- [x] 超时保护timeout
- [x] 镜像大小统计
### 部署阶段
- [x] 部署超时控制
- [x] 详细的状态检查
- [x] 失败诊断信息收集
### 健康检查
- [x] 多状态判断healthy/unhealthy/starting
- [x] 进度反馈(已等待时间)
- [x] 自动重试
### 错误处理
- [x] 统一的 try-catch
- [x] 详细的错误日志
- [x] 诊断信息收集
### 资源管理
- [x] 自动清理悬空镜像
- [x] 自动清理旧日志
- [x] 磁盘空间检查
---
## 🎯 配置建议
### 环境变量调整
```groovy
// 根据服务器性能调整
MAX_PARALLEL_BUILDS = 2 // 构建并发数建议CPU 核心数 / 2
BUILD_TIMEOUT = 45 // 单服务构建超时(分钟)
DEPLOY_TIMEOUT = 10 // 单服务部署超时(分钟)
HEALTH_CHECK_TIMEOUT = 180 // 健康检查总超时(秒)
HEALTH_CHECK_INTERVAL = 10 // 健康检查间隔(秒)
```
### 高性能服务器16 核 + 32GB RAM
```groovy
MAX_PARALLEL_BUILDS = 4
BUILD_TIMEOUT = 30
```
### 低性能服务器4 核 + 8GB RAM
```groovy
MAX_PARALLEL_BUILDS = 1 // 串行构建
BUILD_TIMEOUT = 60
```
---
## 🔧 故障排查
### 问题 1构建超时
```
Timeout: 45 minutes exceeded
```
**解决**
- 增加 `BUILD_TIMEOUT`
- 检查 Maven 构建是否卡住
- 优化 Dockerfile 层缓存
### 问题 2健康检查失败
```
Service health check timeout
```
**解决**
- 增加 `HEALTH_CHECK_TIMEOUT`
- 检查应用日志(是否启动失败)
- 检查 Nacos 连接
### 问题 3磁盘空间不足
```
No space left on device
```
**解决**
- 自动清理会触发(> 80%
- 手动执行:`docker system prune -af --volumes`
---
## 📝 总结
### 优化效果
1.**更可靠**:重试机制 + 超时保护
2.**更快速**:减少重复操作
3.**更安全**:预检查 + 资源管理
4.**更清晰**:详细日志 + 错误诊断
5.**更专业**:企业级代码质量
### 适用场景
- ✅ 生产环境部署
- ✅ 大型团队协作
- ✅ 频繁迭代项目
- ✅ 多服务微服务架构
---
**优化完成时间**: 2026-01-13
**优化版本**: v2.0.0-enterprise