본문 바로가기

분류 전체보기

(25)
[F-Lab] F-Lab(에프랩) 데이터 엔지니어링 코스 4개월 수료 후기 멘토링 마지막 4개월, 수료 후기입니다. 멘토링 직후에는 이직에 집중하는 기간을 가졌고 더욱 성장할 수 있는 회사로의 이직에 성공하였습니다.  멘토링 기간에 진행한 것4개월 멘토링 기간 동안 무엇을 진행했는지 대략적으로 정리해 보겠습니다.코딩테스트 풀이 (리트코드 사이트) - 매주 1문제씩 풀이 후 멘토님과 코드 리뷰 / 인터뷰 대비CS 학습분산 처리 학습Airflow프로젝트 - 데이터 파이프라인 구축GCPTDDGit flow현업에서 발생했었던 사항들(궁금증)에 대한 멘토님의 의견 - 평소 내가 해결했던 방향이 옳았을까?이력서 수정개발자 방향성좋은 개발자란제대로 학습하는 것이란주니어 / 시니어의 차이커리어 방향멘토님이 근무하셨던 IT 대기업 개발 환경현재의 에프랩 멘토링은 1:1 으로 멘티 개인별에 맞추..
[F-Lab] F-Lab(에프랩) 데이터 엔지니어링 코스 3개월 후기 멘토링 3개월 차 후기 글을 작성합니다.연말~연초 공휴일로 인해 일정 변경이 몇 번 있어 공백이 있기도 했고 저의 글 작성도 조금 늦어졌습니다. 2개월 차와 달라진 점은 무엇인가3개월 차에 가장 메인이 되는 것은 프로젝트 진행이었습니다.프로젝트의 핵심 부분(개발)은 3개월 차에 대부분 마무리 지으려 하였고 가장 많은 시간을 투자하였습니다.실제로 개발을 진행하는 프로젝트는 F-lab을 진행하며 결과물을 내는 활동이므로 가장 집중할 시기인 것 같습니다. 이론(멘토링)에 대한 학습도 실무에서 활용하는 주요 기술로 자연스럽게 넘어오게 되었습니다.저의 경우 분산 환경에 대해서 주로 학습하였습니다. 여기서 먼저 말씀드릴 것은 3개월 차에도 저는 멘토링에 대해서 만족스럽습니다.여전히 멘토님과의 멘토링 시간은 긴장감 ..
[F-Lab] F-Lab(에프랩) 데이터 엔지니어링 코스 2개월 후기 멘토링 2개월 차를 마감하며 정리하는 글을 작성합니다.  1개월 차와 달라진 점은 무엇인가제가 가장 궁금했던 점이기도 했고 타인이 보아도 가장 궁금할 것 같은 부분인 것 같습니다.그래서 1개월 차와 달라진 점은 무엇인가? 여전히 만족스러운가?네 여전히 만족스럽습니다 우선 1개월 차에 진행하던 이론 학습은 그대로 진행됩니다.여전히 데이터 엔지니어링에 필요한 CS, 기술 스택 및 동작 원리 등 학습한 후 멘토님과의 질문 티키타카를 진행합니다.멘토님의 질문을 통해 해당 개념에 대해 제대로 학습했는지 더 깊게 생각해보는 것은 무엇인지 알아갔던 것 같습니다. 특히나 데이터 엔지니어 분야에서 CS가 왜 중요한지 어떻게 적용되는지를 하나하나 이해하면서 앞으로 착실히 보완해야겠다고 크게 느꼈던 한달이었습니다. CS를 ..
[Spark] Mac에서 Pyspark 설치 및 환경 설정 24년 11월 기준 Mac 환경에서 pyspark 설치 및 환경 설정한 부분을 정리합니다. 1. Homebrew를 통해 설치하는 것이 가장 용이한 것 같습니다.2. Java 버전은 Spark 버전과 맞춰 설치하면 됩니다.3. 모든 설치 과정은 다른 블로그에도 자세히 나와 있습니다. 단, 본 글은 Pyspark 실행 시 발생하는 아래 에러에 대해서 추가로 기록합니다. 에러 메세지 : Service 'sparkDriver' could not bind on a random free port 1. Homebrewhomebrew를 통해서 필요한 것들을 모두 다운로드 하겠습니다.homebrew를 먼저 설치합니다. https://brew.sh/ko/ HomebrewThe Missing Package Manager..
[F-Lab] F-Lab(에프랩) 데이터 엔지니어링 코스 1개월 후기 여러 차례 블로그 글을 꾸준히 작성하기를 시도했었지만 실패했습니다.특별한 경험이 없다는 핑계, 누구나 하는 공부의 흔적을 남기는 것이 의미가 있을까라는 생각 때문이었습니다. 학습한 내용을 자신의 생각이 드러나게 글을 남기는 것은 큰 의미가 있다 라는 유명하신 분들의 말씀도 보았고글도 써봐야 글솜씨가 늘어난다는 것도 알고 있지만 그럼에도 불구하고 공개된 공간에 글을 쓰는 것은 쉽지 않았습니다. 최근 이러한 생각들을 뒤엎을만한 특별한 경험이 생겼고 이를 계기로 긍정적인 변화를 해보려 글을 남깁니다.저의 솔직한 후기가 도움이 되길 바랍니다.멘토링을 신청하기 까지현재의 회사에서 2~3년을 다닌 이후 좋은 비즈니스 모델을 가진 회사로의 이직을 희망했었습니다.업무를 열심히 하며 현재 회사에서의 2년이 지난 시점에 ..
백준 알고리즘 유형/난이도 정리 보호되어 있는 글입니다.
[Databricks] Data Intelligence Day Korea 2024 정리글 2024년 기업들이 발표한 데이터브릭스 활용 아키텍처에 대하여 정리한 글 입니다. 작년에는 발표 기업들이 데이터브릭스를 왜 선택하였는지 기존 환경에서 데이터브릭스 도입한 환경 및 이유가 무엇인지와 같이 간단한 배경 위주의 발표였습니다.올해에는 더 나아가 기업들의 직면한 구체적인 데이터 환경, 일일 데이터 처리량, 퍼포먼스 튜닝 결과, 데이터브릭스의 여러 기능들을 도입한 후기에 대하여 수치적으로 자세히 공유해주셨습니다.해당 기업들의 데이터 환경은 어떠하고 기존 환경에서의 한계점과 데이터브릭스를 통해 개선된 사항들에 대하여 흥미롭게 청취하였습니다. 1. 크래프톤데이터 처리량→ 누적 : 20+ PB Data / 200+ DB / 20,000+ Tables→ 일 처리량 : 60+ TB Data / 100,000..
[Hadoop] Hive 학습하기 SQL on Hadoop 이라고 불리는 Hive를 정리합니다.HDFS과 동일하게 버전별 특징을 먼저 정리합니다.    Hive v111 April 2024: EOL for release 1.x line → SQL을 이용한 맵리듀스 처리→ 파일 데이터의 논리적 표현→ 빅데이터의 배치 처리를 목표→ MR engine을 사용(default engine이 MR) Hive v220 May 2024: EOL for release 2.x line→ LLAP(Live Long and Process) 구조 추가→ Spark 지원 강화→ CBO 강화→ HPLSQL 추가→ Tez Engine이 추가(default engine이 Tez로 변경) Hive v3→ MR, Hive CLI 제거→ beeline→ 롤을 이용한 작업 ..
[Azure] Renaming Azure Blob File using ADF Azure Blob Storage에 생성된 파일의 이름을 변경을 원하는 경우 Azure Data Factory를 활용할 수 있습니다. 1. ADF 내의 Dataflow 활용2. 기존 파일을 Copy하며 원하는 이름으로 변경 1번은 ADF에서 지원하는 Dataflow를 사용하는 것으로 ADF의 기본기능은 아니므로 제외하겠습니다.2번은 제한된 환경에서 선택한 방법으로, 제약이 없는 경우 더 나은 방법이 있을 수 있습니다.Ex. Copy 단계를 거치지 않고, Target File을 원하는 파일명으로 바로 생성  ◆ 시나리오Azure Blob Storage에 있는 파일명들을 List로 받아온 후 For 문을 돌며 파일 생성 후 기존 파일은 생성  ◆ 주요 PointAzure Blob Storage에 있는 파일을..
[Hadoop] HDFS 학습하기 하둡은 현재 v3입니다.버전별 특징을 키워드로 정리하여 필요한 상황에 맞는 설정을 할 수 있도록 합니다.하둡 v1에서 하둡의 기본 아키텍처를 정립하였습니다.→ 분산저장(HDFS) / 병렬처리(맵리듀스)→ 클러스터 자원관리 및 라이프사이클 관리 어려움, 병목현상 발생→ SPOF(Single Point of Failure) 하둡 v2는 이전 버전의 한계를 극복합니다.→ YARN 아키텍처 도입 : 잡트래커의 병목현상을 개선→ HDFS HA(High Availability) 지원 : Namenode 이중화하여 SPOF 해결, Journal node → MR 외 Spark, HBase, Storm 등 다양한 컴포넌트들을 실행→ HDFS Federation : Namespace의 분리  하둡 v3는 HDFS의 데이..