
正在查看中级Hadoop简约简历模板文字版
陈小湾
求职意向
工作经历
XXX数据是一家专注于互联网金融领域大数据风控服务的科技公司,团队规模约XXX人,核心业务是为消费金融、信用卡中心等机构提供信用评估、反欺诈和用户画像服务,日均处理数据量XXX亿条,服务超过XXX家持牌金融机构。
工作概述:
1.平台架构设计:为应对业务高速增长带来的数据量与计算复杂度挑战,主导新一代大数据平台的架构设计;基于Lambda架构整合实时与离线处理能力,选用Flink作为实时计算引擎,Spark作为离线批处理核心;设计分层数据存储方案,热数据存HBase,温数据存HDFS,冷数据归档至对象存储;通过架构升级,平台整体数据处理能力提升XXX%,资源利用率提高XXX%。
2.核心模块开发:负责风控核心指标计算模块的设计与开发,抽象指标计算逻辑为可配置的规则引擎;使用Spark SQL实现复杂多表关联与窗口聚合,将指标计算任务抽象成DAG图进行调度;引入向量化计算与代码生成技术优化执行效率;该模块支撑了XXX个风控模型的指标加工,任务平均执行时间缩短XXX%。
3.性能深度优化:针对生产环境出现的任务数据倾斜、OOM等问题,进行系统性性能调优;分析任务执行计划,对倾斜Key采用加盐打散或两阶段聚合策略;优化JVM参数与Spark内存模型,减少GC时间;调整Shuffle参数与文件合并策略,减少磁盘IO;经过多轮优化,集群整体计算效率提升XXX%,月度任务失败率下降至XXX%。
4.数据质量治理:牵头建立数据质量监控体系,定义核心数据资产的完整性、准确性、一致性标准;开发自动化稽核工具,定时扫描数据仓库各层表的记录数波动、字段空值率及值域异常;建立数据血缘图谱,追踪数据异常源头;推动问题数据工单流程,使数据问题平均修复时间从X天缩短至X小时,数据质量评分提升XXX%。
5.实时计算建设:为满足业务对实时反欺诈的需求,构建实时计算链路;设计基于Kafka+Flink+Redis的实时处理架构,开发实时特征计算与规则匹配作业;解决Flink作业状态管理、Exactly-Once语义实现等技术难点;该实时链路支持毫秒级响应,日均处理事件XXX亿,准确识别欺诈行为XXX万次,误报率低于XXX%。
6.团队与流程建设:作为大数据组技术骨干,参与团队技术栈选型与开发规范制定;编写核心组件使用手册与最佳实践文档,组织内部技术分享XXX次;主导代码评审,推动单元测试与集成测试覆盖率提升;指导初级工程师X人,帮助其快速成长。
工作业绩:
1.主导完成新一代大数据平台架构设计与核心模块开发,平台峰值数据处理能力达到每秒XXX万条,支撑公司XXX%的风控业务。
2.通过系统性性能优化,将核心批处理任务的平均运行时间缩短XXX%,每月节省计算资源成本约XXX%。
3.建立的数据质量监控体系覆盖XXX张核心表,数据质量问题数季度环比下降XXX%,下游业务投诉减少XXX%。
4.构建的实时计算链路将欺诈识别延迟从分钟级降至毫秒级,帮助客户减少欺诈损失预估XXX万元。
5.推动团队开发流程规范化,核心代码单元测试覆盖率从XX%提升至XXX%,线上严重BUG数减少XXX%。
6.培养初级工程师X名,其中X名已能独立负责重要模块开发。
主动离职,希望有更多的工作挑战和涨薪机会。
项目经历
公司为某头部消费金融公司打造的下一代风控核心系统项目,需整合线上信贷申请、交易、还款等全链路数据,实现从申请反欺诈、信用评估到贷后监控的实时决策。原有系统分散且延迟高,无法应对日益复杂的欺诈手段。项目要求99.99%的决策在XXX毫秒内完成,日均处理申请量XXX万笔,数据源涉及XXX个内部与外部系统。
项目职责:
1.架构设计与评审:负责大数据处理部分的架构设计,提出基于事件驱动的流批一体架构方案,主持技术评审并确定以Flink为核心构建实时决策引擎,以Spark构建离线模型训练与特征加工平台。
2.实时特征计算:设计并开发实时特征计算框架,支持时间窗口、滑动窗口、会话窗口等多种特征聚合方式;解决多流关联下的乱序事件处理难题,实现高吞吐低延迟的特征服务。
3.数据链路保障:设计并实现端到端的数据一致性保障机制,从数据采集、传输、处理到存储,确保在分布式环境下数据的准确性与不丢失;制定并实施实时链路监控与告警策略。
4.性能压测与调优:主导全链路压力测试,设计测试用例模拟高峰流量;定位性能瓶颈并实施优化,包括调整Flink任务并行度、优化状态后端、升级Kafka集群等,确保系统满足SLA要求。
项目业绩:
1.系统成功上线,平均决策响应时间稳定在XXX毫秒以内,峰值QPS达到XXX,完全满足业务性能要求。
2.实时特征计算框架支持XXX种特征类型,特征计算延迟低于XXX毫秒,支撑了XXX个风控模型的实时调用。
3.数据一致性保障机制使端到端数据准确率达到
99.999%,在半年运行期内未发生因数据错误导致的决策失误。
4.项目帮助客户将信贷申请自动审批率提升至XXX%,欺诈识别率提升XXX%,坏账率降低XXX%,获得客户高度认可并成功续约。
教育背景
GPA X.XX/X.X(专业前XX%),主修算法设计、分布式系统、数据仓库与数据挖掘等核心课程。熟练掌握Java/Scala编程及Hadoop/Spark/Flink等大数据技术栈,参与课程设计《分布式新闻推荐系统》,负责基于Spark MLlib的协同过滤算法实现与调优,系统在模拟数据集上取得XXX的推荐准确率。
自我评价
培训经历
深入掌握了Flink runtime原理、状态管理、容错机制及性能优化技巧。将认证中学到的知识应用于实时风控项目,解决了状态后端性能瓶颈与Exactly-Once语义实现难题,保障了实时链路的高可用与数据一致性。
中级Hadoop简约简历模板
269人使用适用人群: #Hadoop #中级[3-5年]
猜你想用
[基本信息]
姓名:陈小湾
性别:男
年龄:26
学历:本科
婚姻:未婚
年限:4年
面貌:党员
邮箱:xiaowan@gangwan.com
电话:18600001654
[求职意向]
工作性质:全职
应聘职位:Hadoop
期望城市:北京
期望薪资:8000-10000
求职状态:离职-随时到岗
[工作经历]
北京XX科技有限公司 | Hadoop
2024-09 - 2025-12
XXX数据是一家专注于互联网金融领域大数据风控服务的科技公司,团队规模约XXX人,核心业务是为消费金融、信用卡中心等机构提供信用评估、反欺诈和用户画像服务,日均处理数据量XXX亿条,服务超过XXX家持牌金融机构。
工作概述:
1.平台架构设计:为应对业务高速增长带来的数据量与计算复杂度挑战,主导新一代大数据平台的架构设计;基于Lambda架构整合实时与离线处理能力,选用Flink作为实时计算引擎,Spark作为离线批处理核心;设计分层数据存储方案,热数据存HBase,温数据存HDFS,冷数据归档至对象存储;通过架构升级,平台整体数据处理能力提升XXX%,资源利用率提高XXX%。
2.核心模块开发:负责风控核心指标计算模块的设计与开发,抽象指标计算逻辑为可配置的规则引擎;使用Spark SQL实现复杂多表关联与窗口聚合,将指标计算任务抽象成DAG图进行调度;引入向量化计算与代码生成技术优化执行效率;该模块支撑了XXX个风控模型的指标加工,任务平均执行时间缩短XXX%。
3.性能深度优化:针对生产环境出现的任务数据倾斜、OOM等问题,进行系统性性能调优;分析任务执行计划,对倾斜Key采用加盐打散或两阶段聚合策略;优化JVM参数与Spark内存模型,减少GC时间;调整Shuffle参数与文件合并策略,减少磁盘IO;经过多轮优化,集群整体计算效率提升XXX%,月度任务失败率下降至XXX%。
4.数据质量治理:牵头建立数据质量监控体系,定义核心数据资产的完整性、准确性、一致性标准;开发自动化稽核工具,定时扫描数据仓库各层表的记录数波动、字段空值率及值域异常;建立数据血缘图谱,追踪数据异常源头;推动问题数据工单流程,使数据问题平均修复时间从X天缩短至X小时,数据质量评分提升XXX%。
5.实时计算建设:为满足业务对实时反欺诈的需求,构建实时计算链路;设计基于Kafka+Flink+Redis的实时处理架构,开发实时特征计算与规则匹配作业;解决Flink作业状态管理、Exactly-Once语义实现等技术难点;该实时链路支持毫秒级响应,日均处理事件XXX亿,准确识别欺诈行为XXX万次,误报率低于XXX%。
6.团队与流程建设:作为大数据组技术骨干,参与团队技术栈选型与开发规范制定;编写核心组件使用手册与最佳实践文档,组织内部技术分享XXX次;主导代码评审,推动单元测试与集成测试覆盖率提升;指导初级工程师X人,帮助其快速成长。
工作业绩:
1.主导完成新一代大数据平台架构设计与核心模块开发,平台峰值数据处理能力达到每秒XXX万条,支撑公司XXX%的风控业务。
2.通过系统性性能优化,将核心批处理任务的平均运行时间缩短XXX%,每月节省计算资源成本约XXX%。
3.建立的数据质量监控体系覆盖XXX张核心表,数据质量问题数季度环比下降XXX%,下游业务投诉减少XXX%。
4.构建的实时计算链路将欺诈识别延迟从分钟级降至毫秒级,帮助客户减少欺诈损失预估XXX万元。
5.推动团队开发流程规范化,核心代码单元测试覆盖率从XX%提升至XXX%,线上严重BUG数减少XXX%。
6.培养初级工程师X名,其中X名已能独立负责重要模块开发。
[项目经历]
项目名称:金融全链路实时风控决策系统
担任角色:项目负责人
公司为某头部消费金融公司打造的下一代风控核心系统项目,需整合线上信贷申请、交易、还款等全链路数据,实现从申请反欺诈、信用评估到贷后监控的实时决策。原有系统分散且延迟高,无法应对日益复杂的欺诈手段。项目要求99.99%的决策在XXX毫秒内完成,日均处理申请量XXX万笔,数据源涉及XXX个内部与外部系统。
项目业绩:
1.系统成功上线,平均决策响应时间稳定在XXX毫秒以内,峰值QPS达到XXX,完全满足业务性能要求。
2.实时特征计算框架支持XXX种特征类型,特征计算延迟低于XXX毫秒,支撑了XXX个风控模型的实时调用。
3.数据一致性保障机制使端到端数据准确率达到
99.999%,在半年运行期内未发生因数据错误导致的决策失误。
4.项目帮助客户将信贷申请自动审批率提升至XXX%,欺诈识别率提升XXX%,坏账率降低XXX%,获得客户高度认可并成功续约。
[教育背景]
南京理工大学
软件工程 | 本科
GPA X.XX/X.X(专业前XX%),主修算法设计、分布式系统、数据仓库与数据挖掘等核心课程。熟练掌握Java/Scala编程及Hadoop/Spark/Flink等大数据技术栈,参与课程设计《分布式新闻推荐系统》,负责基于Spark MLlib的协同过滤算法实现与调优,系统在模拟数据集上取得XXX的推荐准确率。
