9장. 웹 크롤러 설계
·
📝 끄적끄적/📖 가상 면접 사례로 배우는 대규모 시스템 설계 기초
가상 면접 사례로 배우는 대규모 시스템 설계 기초를 읽고 정리한 글입니다. 이번 챕터를 읽으면서 가볍게 크롤링만 적용해 봤는데, 생각보다 고려할 부분이 정말 많구나 라는 걸 깨달았다. 크롤러는 ‘로봇’이나 ‘스파이더’라는 이름으로도 불리며, 검색 엔진을 비롯해 다양한 목적으로 사용된다.주 목적은 웹에 새롭게 올라오거나 갱신된 콘텐츠를 빠르고 정확하게 수집하는 것이다.크롤러는 특정 웹 페이지들에서 시작해, 그 안의 하이퍼링크를 따라가며 콘텐츠를 순차적으로 수집해 나간다.크롤러 활용 예시활용 예시설명검색 엔진 인덱싱검색 엔진의 로컬 인덱스를 구축하기 위해 크롤러를 사용한다. 대표적인 예시가 구글의 google bot이다.웹 아카이빙웹페이지들을 주기적으로 수집, 저장하여 아카이빙하는 용도다. 각국 국립 도서..
8장. URL 단축기 설계
·
📝 끄적끄적/📖 가상 면접 사례로 배우는 대규모 시스템 설계 기초
가상 면접 사례로 배우는 대규모 시스템 설계 기초를 읽고 정리한 글입니다. 이 책 내용을 들어가기에 앞서 왜 대규모 시스템에서 URL을 단축해야 할까? 의문이 들어 찾아봤다.아래 표는 단축 URL의 주요 장점과 설명을 정리한 것이다.구분설명공간 절약 및 가독성 향상SNS(예: 트위터 280자 제한)나 문자메시지(SMS)처럼 짧은 메시지 환경에서는 긴 URL이 불편을 초래한다. 단축 URL은 글자 수를 절약하고, 깔끔하게 링크를 전달할 수 있다.클릭 추적 및 분석언제, 어디서, 누가 클릭했는지 등 실시간 데이터 추적이 가능하다. 국가/도시별, 시간대별, 디바이스·브라우저별, 유입경로까지 세분화된 분석이 가능하다.마케팅 효과 측정다양한 채널에 뿌려진 링크별로 성과를 비교할 수 있고, 메시지별 A/B 테스트..
'면접을 위한 CS 전공지식 노트'를 읽고
·
📝 끄적끄적/후기 및 회고
[책 링크]📌 목차1장. 디자인 패턴과 프로그래밍 패러다임2장. 네트워크3장. 운영체제4장. 데이터베이스5장. 자료 구조6장. 포트폴리오와 면접 면접 일주일 전 복기하기 좋다.딱 책 소개에 적혀있듯이, 면접 일주일 전에 가볍게 읽으면서 CS 복기하기 좋은 책이다.또는 CS를 공부하고 싶은 입문자들에게 좋을 것 같다. 디자인 패턴, 네트워크, 운영체제, 데이터베이스, 자료구조, 그리고 마지막에 포트폴리오와 면접 팁까지 핵심이 딱 담겨있다.그리고 마지막에 "이건 이렇게 물어볼 수 있다 → 이렇게 답하면 된다"이런 흐름으로 알려주는데, CS보다 이 부분이 도움이 됐다. 깊이 있는 공부에는 부족할 수 있다나는 이미 알고 있던 내용을 다시 정리하고 싶어서 이 책을 읽었는데,오히려 어디가 약한지, 뭐는 설명할..
7장. 분산 시스템을 위한 유일 ID 생성기 설계
·
📝 끄적끄적/📖 가상 면접 사례로 배우는 대규모 시스템 설계 기초
분산 시스템에서 유일한 ID를 생성하는 일은 생각보다 복잡하다.단순히 RDBMS의 auto_increment를 사용하면 될 것 같지만, 서버가 분산되기 시작하면 곧 병목과 충돌의 문제가 나타난다.이 글에서는 그러한 문제를 해결하기 위한 다양한 접근법을 소개하고, 그중에서도 트위터의 Snowflake 알고리즘을 중심으로 설계를 정리한다. 데이터베이스 서버 한 대로는 그 요구를 감당할 수 없을뿐더러, 여러 데이터베이스 서버를 쓰는 경우에는 지연시간(delay)을 낮추기가 무척 힘들 것이다. 🤔 여러 데이터베이스 서버를 쓰는 경우에 지연시간을 낮추기가 힘들다는 게 무슨말일까?ID 충돌을 피하려면 각 DB 서버가 생성하는 ID 범위를 미리 조정하거나, 중앙에서 ID를 발급받는 티켓 서버 같은 구조를 사용해야 ..
6장. 키-값 저장소 설계
·
📝 끄적끄적/📖 가상 면접 사례로 배우는 대규모 시스템 설계 기초
키-값 저장소는 키-값 데이터베이스라고도 불리는 비관계형 데이터베이스이며, 각 값은 고유 식별자인 키를 통해 접근한다.키는 일반 텍스트 혹은 해시 값일 수 있으며, 짧을수록 성능에 유리하다.값은 문자열, 리스트, 객체 등 어떤 것이든 가능하며, 저장소는 값의 형태를 따로 제한하지 않는다.대표적인 예시로는 Amazon Dynamo, Memcached, Redis 등이 있다. 요구사항 정리이번 장에서는 다음 특성을 갖는 키-값 저장소를 설계해 볼 것이다.키-값 쌍의 크기는 10KB 이하이다.큰 데이터를 저장할 수 있어야 한다.높은 가용성을 제공해야 한다. 따라서 시스템은 설사 장애가 있더라도 빨리 응답해야 한다.높은 규모 확장성을 제공해야 한다. 따라서 트래픽 양에 따라 자동적으로 서버 증설/삭제가 이루어져..
5장. 안정 해시 설계
·
📝 끄적끄적/📖 가상 면접 사례로 배우는 대규모 시스템 설계 기초
수평적 규모 확장성(scale out)을 달성하기 위해서는 클라이언트로부터의 요청이나 데이터를 서버에 균등하게 나누는 것이 중요하다.안정 해시는 이 목표를 달성하기 위해 보편적으로 사용하는 기술이다.안정 해시에 대해서 알기 전에 우선 이러한 해시 기술이 어떠한 문제를 해결하려고 하는지 좀 더 자세히 살펴보자먼저, 해시란?안정 해시에 대해서 알아보기 전에 간략하게 해시에 대해서 짚어보자. 해시의 사전적 의미는 '임의 길이의 데이터 문자열을 입력으로 받아서 고정 크기의 출력, 일반적으로는 숫자와 문자열로 이루어진 해시 값 또는 해시 코드를 생성하는 수학적 함수'이다. 쉽게 풀어 이야기하면 같은 문자열 입력은 항상 같은 해시 코드를 반환한다는 것이다. 해시의 이런 특성을 이용하여 암호화나 파일의 위변조 판정 ..
4장. 처리율 제한 장치의 설계
·
📝 끄적끄적/📖 가상 면접 사례로 배우는 대규모 시스템 설계 기초
가상 면접 사례로 배우는 대규모 시스템 설계 기초를 읽고 정리한 글입니다. 처리율 제한 장치란처리율 제한 장치란 네트워크 시스템에서 클라이언트 또는 서비스가 보내는 트래픽의 처리율(rate)을 제어하기 위한 장치다.HTTP를 예로 들면 이 장치는 특정 기간 내에 전송되는 클라이언트의 요청 횟수를 제한한다. API 요청 횟수가 제한 장치에 정의된 임계치를 넘어서면 추가로 도달한 모든 호출은 처리가 중단된다. 예시사용자는 초당 2회 이상 새 글을 올릴 수 없다.같은 IP 주소로는 하루에 10개 이상의 계정을 생성할 수 없다.같은 디바이스로는 주당 5회 이상 리워드를 요청할 수 없다.API에 rate limiter를 두면 좋은 점DoS(Denial of Service) 공격에 의한 자원 고갈(resource ..