Nikhil is available for hire

Nikhil Gupta

验证专家 in Engineering

数据库开发人员

Location

孟买，马哈拉施特拉邦，印度

至今成员总数

2022年10月12日

Nikhil是一名拥有超过四年经验的高级数据工程师, 能快速掌握新概念. 他构建高度可伸缩的数据密集型应用程序, 理解各种应用程序和技术栈, 并跨层次管理客户和涉众. 凭借他的技术深度和演讲技巧, Nikhil最突出的品质是他致力于提供高质量的解决方案.

数据仓库工程数据数据仓库设计数据可视化 Data Analysis 大数据架构 Python 3 SQL Python PostgreSQL MySQL Apache气流 ETL Pandas Databases

Portfolio

Millicom国际移动电话SA - Main

数据工程，亚马逊网络服务(AWS)，大数据，AWS Lambda, Spark...

Zepto

Python 3, Python, SQL, Debezium, CDC, 更改数据捕获, Apache Kafka...

Xpressbees

Apache Kafka, Apache气流, Python 3, SQL, Snowflake，查询优化...

Experience

Python 3 - 5年 Apache气流- 4年 MySQL - 4年数据仓库——4年 PostgreSQL - 4年雪花- 3年火花- 3年 Apache Kafka - 2年

Availability

Part-time

首选的环境

Linux, Ubuntu, Git, PyCharm, Sublime Text

最神奇的...

...我开发的是一款BI产品，它可以将数据转化为带有书面解释的见解, 在不到两年的时间内从0扩展到12个客户端.

工作经验

Data Engineers

2023 - PRESENT

Millicom国际移动电话SA - Main

在数据网格架构中开发Millicom的整个数据治理和安全框架.
简化了80多个生产者和消费者AWS账户的访问请求，并授权国家/地区团队在维护中心框架的同时开发自己的解决方案.
使用AWS Lake Formation维护了数据共享的黄金标准. 使用AWS数据区设计并实现了业务数据目录. 使用Terraform和Python脚本自动化部署.

Technologies: 数据工程，亚马逊网络服务(AWS)，大数据，AWS Lambda, Spark, AWS Glue, Amazon S3 (AWS S3), Apache Kafka, SQL, Python, Scala, 大数据架构, 数据转换, Message Queues, 关系数据库, Data Pipelines, Amazon EC2, Amazon Athena, Amazon Elastic MapReduce (EMR), Amazon RDS, Redshift

二级数据工程师

2023 - 2023

Zepto

设计并实现了一个基于文件上传触发的事件驱动管道.
实现了从源表实时捕获数据的端到端变更数据捕获(CDC)管道.
优化了现有的Amazon Redshift集群，以获得更好的性能，并防止频繁关机.
构建快速消费品动态定价引擎. 设计数据流，使Zepto应用程序上快速消费品的价格变化自动化. 该项目的影响估计在0.200万印度卢比，鉴于目前的收入泄漏将被最小化.
领导内部流媒体管道的端到端开发，并实现了10秒的SLA, 端到端每秒传输100MB. 这个管道包括Debezium, Kafka, Kafka Connect, PostgreSQL, ClickHouse和Apache Pinot.

技术:Python 3, Python, SQL, Debezium, CDC, 更改数据捕获, Apache Kafka, 后端开发, 数据操作, Dashboards, Reports, 信息可视化, 数据仓库, 数据仓库设计, Data, Looker, AWS Glue, AWS Lambda, Amazon RDS, 大数据架构, 数据转换, Message Queues, ETL开发, 数据库优化, 数据库体系结构, 数据架构

高级数据工程师

2022 - 2023

Xpressbees

设计了一个内部调度框架，利用雪花任务将亚马逊MWAA成本降低了50%.
使用框架减少了工程时间和工作量，该框架可作为分析和客户端MIS团队调度自定义SQL和存储过程的自助调度.
监督该框架的端到端设计和实施.

技术:Apache Kafka, Apache气流, Python 3, SQL, Snowflake，查询优化, 工程数据, ETL Tools, Web Scraping, 数据操作, Dashboards, Reports, 信息可视化, 数据仓库, 数据仓库设计, Data, Looker, AWS Glue, AWS Lambda, Amazon RDS, 大数据架构, 数据转换, Message Queues, ETL开发, 数据库优化, 数据库体系结构, 数据架构

Data Engineer

2022 - 2022

PepsiCo

为他们的计费仪表板构建了整个数据管道，帮助百事可乐公司跟踪不同云供应商和服务的成本.
从AWS收集成本和标签数据, Azure, Snowflake, 和Datadog，并将其简化为我们最终的数据模型. 我们使用ThoughtSpot构建了我们的表示层.
为不同的环境创建GitHub Actions，构建Docker映像(打包了所有数据构建工具(dbt)模型)，并将其推送到ECR仓库.
编写一个气流DAG，在一个节奏上运行这个Docker映像，以便在生产环境中执行dbt模型. 使用dbt编写数据转换逻辑.

技术:Python, Snowflake, Apache气流, Terraform, GitHub, GitHub API, 持续交付(CD), 持续集成(CI), DevOps, 亚马逊网络服务(AWS), Datadog, APIs, Microsoft Power BI, 数据可视化, 商业智能(BI), Azure, Data Analysis, 数据库分析, Docker, CI / CD管道, 查询优化, 工程数据, ETL Tools, 后端开发, 数据操作, Dashboards, Reports, 信息可视化, 数据仓库, Pandas, 数据仓库设计, Data, Amazon RDS, 大数据架构, 数据转换, Message Queues, ETL开发, 数据库体系结构, 数据架构

高级数据工程师

2022 - 2022

Xpressbees

使用SQL编写数据转换，将表从新数据源装载到数据平台上.
构建DAG脚本，每小时从原始数据库调度数据加载, Postgres, MySQL, and MongoDB, 转换为分析层表，用于分析数据仓库.
创建Kafka连接器Debezium配置文件，用于设置从源数据库到数据湖的变更数据捕获(CDC).
进行代码审查并指导团队中的初级数据工程师.

技术:Python, Python 3, Snowflake, CDC, SQL, Apache气流, PostgreSQL, MongoDB, MySQL, 数据仓库, 数据仓库设计, Pipelines, Data Pipelines, 亚马逊网络服务(AWS), Data Cleaning, Data Lakes, Big Data, ETL, Data Modeling, 维度建模, 数据提取, DB, ELT, Databases, Oracle, Serverless, 关系数据库, Full-stack, 数据可视化, 商业智能(BI), Data Analysis, 数据库分析, Docker, 查询优化, 工程数据, ETL Tools, Web Scraping, Apache Kafka, 后端开发, 数据操作, Dashboards, Reports, 信息可视化, Pandas, Data, AWS Glue, AWS Lambda, Amazon RDS, 大数据架构, 数据转换, Message Queues, ETL开发, 数据库体系结构, 数据架构

Data Engineer

2021 - 2022

vPhrase

每天从多个客户端和内部服务器中摄取大约80GB的Phrazor产品和插件使用数据到Amazon S3数据湖中.
将数据湖中的数据导入到Snowflake数据仓库中，以便进行转换和分析.
在SQL中组合摄取和转换脚本，将数据从原始表和staging表加载到分析层表中, 最终被产品经理和CTO用于分析.
使用Python编写了气流DAG脚本，并编排了整个管道.

技术:Python, Snowflake, Amazon S3 (AWS S3), Apache气流, Amazon EC2, Data Analytics, Pipelines, Data Pipelines, ETL, SQL, Data Modeling, Terraform, 维度建模, 数据提取, DB, ELT, Databases, Oracle, Serverless, 关系数据库, MySQL, Full-stack, Microsoft Power BI, 数据可视化, 商业智能(BI), Data Analysis, 数据库分析, Apache Spark, Docker, 查询优化, 工程数据, ETL Tools, 后端开发, 数据操作, Dashboards, Reports, 信息可视化, Pandas, 数据仓库设计, Data, Amazon RDS, 大数据架构, 数据转换, ETL开发, 数据架构

Data Engineer

2020 - 2021

vPhrase

为金融客户设计端到端的ETL管道，为他们的股票和共同基金推荐算法提供动力.
从第三方供应商数据库摄取的数据, using Debezium, Kafka, 和Kafka Connect为CDC接入S3数据湖.
写清洁, transformation, 以及使用Python和Spark的数据处理脚本，计算大约100-150个财务kpi.
使用在Amazon EC2实例上运行的气流编排整个ETL管道.

技术:火花, 亚马逊网络服务(AWS), Data Lakes, 数据仓库, Python, Python 3, SQL, ETL, Data Pipelines, Pipelines, Data Modeling, Terraform, 维度建模, Tableau, 数据提取, DB, ELT, Databases, Oracle, 关系数据库, 数据可视化, 商业智能(BI), Data Analysis, 数据库分析, Apache Spark, 工程数据, ETL Tools, Web Scraping, 数据操作, Reports, Data, 大数据架构, 数据转换, ETL开发, 数据架构

Data Engineer

2019 - 2020

vPhrase

从零开始构建了一个名为Phrazor的商业智能软件. 它从零发展到12个全职客户，在三年内获得了200多个许可证.
对产品的后端数据模型和知识库进行建模和设计, 支持对用户报告和仪表板的分析.
领导使用Spark和Pandas的公式设计和实现. 它处理数据，为用户的报告计算特定于行业的kpi.
设计了一个多级下钻功能来诊断kpi的突然下降或增长.
创建并维护覆盖90%代码库的单元测试.

技术:Python, Spark SQL, Spark, Apache气流, 数据库设计, 数据库建模, 数据库模式设计, Data Modeling, 维度建模, 包装消费品, Tableau, 数据提取, DB, ELT, Microsoft Power BI, 数据可视化, 商业智能(BI), Data Analysis, 数据库分析, Docker, 工程数据, Beautiful Soup, Data, 数据转换

Experience

ETL管道股票和共同基金推荐系统

SCOPE
构建端到端的ETL管道，为印度一家领先的交易公司的股票和共同基金推荐算法提供数据.

DATA SOURCES
该项目需要来自该客户端的历史数据, 来自客户端第三方供应商的数据, 以及来自各种api的数据.

技术栈和概述
使用Debezium进行数据摄取, Kafka, Kafka Connect将CDC从供应商数据库连接到S3数据湖. 使用Python + Spark进行数据清理/数据转换, 数据处理, 它涉及在摄取的数据之上计算大约100-150个财务kpi. 数据清理和处理管道是使用运行在EC2实例上的Apache气流进行编排的.

Phrazor产品使用分析管道

SCOPE
构建端到端ETL管道，从客户端和内部服务器获取Click Stream数据进行分析.

DATA SOURCES
每天从多个客户端和内部服务器中摄取大约80-100GB的Phrazor产品和Phrazor插件使用数据到AWS S3数据湖.

OVERVIEW
清理和转换原始数据，并将其从S3传输到Snowflake数据仓库以进行进一步分析. 整个管道使用Apache气流进行编排，并在AWS EC2实例上运行.

IMPACT
这个管道帮助产品经理做出更明智的产品决策, run A/B tests, 并分析用户如何使用该平台. 这一层还为数据科学家提供了用于高级分析的干净数据.

IEEE-CIS诈欺侦测大赛

这个项目在全球6700多个团队中获得了前7%的铜牌.

给定信用卡交易的数据, 该解决方案应该在给定每个交易数据的情况下识别欺诈性交易. 这是一个典型的数据高度扭曲的例子, 正类小于整个数据的1%.

测试并采用数据不平衡处理技术，最终进行硬负挖掘. 我和我的团队设计了许多功能，帮助我们达到了前7%.

Skills

Languages

Python 3, SQL, Snowflake, Python, Scala

Libraries/APIs

Pandas, NumPy, Beautiful Soup, PySpark, Amazon EC2 API, GitHub API

Tools

Apache气流, Microsoft Power BI, Spark SQL, GitHub, Tableau, Looker, Git, PyCharm, Sublime Text 3, Amazon Elastic MapReduce (EMR), Terraform, AWS Glue, Amazon Athena

Paradigms

ETL, 商业智能(BI), Unit Testing, Agile, 数据库设计, 维度建模, Data Science, 持续交付(CD), 持续集成(CI), DevOps

Storage

PostgreSQL, MySQL, Databases, 关系数据库, Redshift, Data Lakes, 数据库建模, Data Pipelines, JSON, DB, 数据库体系结构, Amazon S3 (AWS S3), MongoDB, Azure SQL, Datadog

Other

数据仓库, 工程数据, 数据仓库设计, 数据可视化, Data Analysis, 数据库分析, ETL Tools, Data, 大数据架构, ETL开发, Data Modeling, ELT, Big Data, Data Analytics, 数据库模式设计, Data Cleaning, 数据处理, Star Schema, Pipelines, 数据提取, 查询优化, Web Scraping, 后端开发, Dashboards, Reports, 信息可视化, 数据转换, Message Queues, 数据库优化, 数据架构, Debezium, CDC, 机器学习, EDA, EMR, Parquet, APIs, 包装消费品, Serverless, Full-stack, CI / CD管道, 更改数据捕获, Real Estate, 数据操作, Amazon RDS

Frameworks

Spark, Apache Spark

Platforms

Apache Kafka, Amazon EC2, 亚马逊网络服务(AWS), Oracle, Linux, Ubuntu, Azure, Docker, AWS Lambda

Education

2015 - 2019

计算机科学学士学位

孟买大学-孟买，印度

Certifications

2018年1月至今

Data Science

灰原子数据科学学院