Post

초기데이터 구축문제 해결법(feat. faker)

진짜 데이터와 유사한 생성

Python Faker

개발 및 테스트 환경에서 초기 데이터를 구축하는 작업은 종종 시간이 많이 소모되며, 특히 실제 데이터와 유사한 데이터를 구축하는 데에는 더 많은 어려움이 따릅니다. 반복되는 데이터는 비교적 쉽게 처리할 수 있지만, 이름, 주소, 전화번호, 이메일 등 다양한 유형의 데이터를 실제와 유사하게 생성하려면 상당한 시간이 소요됩니다.

이러한 수동 생성 작업은 매우 비효율적이고 시간이 많이 걸리므로, 자동화된 방식으로 다양한 유형의 테스트 데이터를 빠르게 생성할 수 있는 도구의 필요성이 커졌습니다.

이와 같은 배경에서, Python Faker 라이브러리를 사용하여 자동화된 더미 데이터 생성을 시도하게 되었습니다. 이를 통해 초기 데이터를 신속하게 구축하고, 개발 및 테스트를 보다 효율적으로 진행할 수 있었습니다.

Faker는 테스트 데이터를 손쉽게 생성할 수 있도록 돕는 Python 라이브러리로, 이름, 주소, 전화번호, 이메일, 신용카드 번호 등 다양한 유형의 데이터를 무작위로 생성할 수 있습니다. 이 라이브러리는 데이터베이스 더미 데이터 생성, 테스트 자동화, 데이터 마스킹 등에 유용하게 활용될 수 있습니다.

주요 기능

  • 다양한 데이터 유형 지원 (이름, 주소, 이메일, 전화번호, 날짜, 텍스트 등)
  • 로컬라이제이션 지원 (다양한 국가별 데이터 생성 가능)
  • 동일한 시드(seed) 설정을 통한 재현 가능성 제공

Faker install

Faker는 pip을 통해 간단하게 설치할 수 있습니다.

1
pip install faker

사용법

Faker를 사용하려면 먼저 Faker 객체를 생성한 후 필요한 데이터를 호출하면 됩니다.

데이터 생성

1
2
3
4
5
6
7
8
9
from faker import Faker

fake = Faker()

print(fake.name())        # 랜덤한 이름 생성 : Cathy Ryan
print(fake.address())     # 랜덤한 주소 생성 : 9635 Samantha Neck
print(fake.email())       # 랜덤한 이메일 생성 : gomezjuan@example.org
print(fake.phone_number()) # 랜덤한 전화번호 생성 : 707-508-4521
print(fake.text())        # 랜덤한 텍스트 생성 : Professor true today director federal reality onto. Doctor right where likely once degree very boy. Act fall campaign third film audience itself. Would concern health friend listen arm.

특정 국가 데이터 생성 (로컬라이제이션)

Faker는 여러 국가의 데이터를 생성할 수 있습니다. 한국 데이터를 생성하려면 ko_KR을 설정하면 됩니다.

1
2
3
4
fake_kr = Faker('ko_KR')

print(fake_kr.name())    # 한글 이름 생성 : 장진호
print(fake_kr.address()) # 한국 주소 생성 : 세종특별자치시 강남구 테헤란로 846-33 (광수한면)

시드(seed) 설정 (동일한 데이터 생성)

동일한 시드 값을 설정하면 매 실행마다 동일한 데이터를 생성할 수 있습니다.

1
2
3
4
5
fake = Faker()
fake.seed_instance(42)

print(fake.name())  # 동일한 이름 생성
print(fake.email()) # 동일한 이메일 생성

JSON 형식의 데이터 생성

Faker는 JSON 데이터도 쉽게 생성할 수 있습니다.

1
2
3
4
5
6
7
8
9
import json

fake_data = {
    "name": fake.name(),
    "email": fake.email(),
    "address": fake.address()
}

print(json.dumps(fake_data, indent=4, ensure_ascii=False))

커스텀 데이터 생성

Faker를 활용하여 특정 형식의 데이터를 커스텀할 수도 있습니다.

1
2
3
4
5
6
7
8
class CustomProvider:
    def job_title(self):
        return "Senior Software Engineer"

fake = Faker()
fake.add_provider(CustomProvider)

print(fake.job_title())  # "Senior Software Engineer" 출력

default provider

다양한 provider를 제공합니다. (링크)

alt text

주요 메소드

항목설명
fake.name()이름
fake.address()주소
fake.postcode()우편 번호
fake.country()국가명
fake.company()회사명
fake.job()직업명
fake.phone_number()휴대 전화 번호
fake.email()이메일 주소
fake.user_name()사용자명
fake.pyint(min_value=0, max_value=100)0부터 100 사이의 임의의 숫자
fake.ipv4_private()IP 주소
fake.text()임의의 문장 (※ 한글 임의의 문장은 fake.catch_phrase() 사용)
fake.color_name()색상명
fake.date_of_birth(minimum_age=18, maximum_age=90)생년월일 생성
fake.currency_name()통화명
fake.company_email()회사 이메일
fake.ssn()주민등록번호(유사)
fake.credit_card_number()신용카드 번호
fake.license_plate()차량 번호판
fake.date_time_between(start_date="-5y", end_date="now")날짜
fake.uuid4()UUID v4

mysql insert 예시

아래는 mysql에 데이터를 넣는 python script입니다.

user, product, reservation, log 테이블에 데이터를 넣는 예시입니다.

먼저 아래와 같이 테이블을 생성합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
create table if not exists test_db.users
(
    id         bigint auto_increment
        primary key,
    name       varchar(255)                        not null,
    email      varchar(255)                        not null,
    phone      varchar(255)                        not null,
    address    varchar(255)                        null,
    birthdate  datetime(6)                         null,
    created_at timestamp default CURRENT_TIMESTAMP null
);

create table if not exists test_db.products
(
    id          bigint auto_increment
        primary key,
    name        varchar(100)                                                       not null,
    category    enum ('ELECTRONICS', 'FASHION', 'FOOD', 'BOOKS', 'HOME', 'SPORTS') not null,
    description varchar(500)                                                       not null,
    price       decimal(38, 2)                                                     not null,
    stock       int       default 0                                                null,
    created_at  timestamp default CURRENT_TIMESTAMP                                null
);

create table if not exists test_db.reservations
(
    id               bigint auto_increment
        primary key,
    user_id          bigint                                                                                       not null,
    product_id       bigint                                                                                       not null,
    quantity         bigint                                                                                       null,
    total_price      bigint                                                                                       null,
    status           enum ('PENDING', 'CONFIRMED', 'CANCELLED', 'SHIPPED', 'DELIVERED') default 'PENDING'         null,
    payment_method   enum ('CREDIT_CARD', 'PAYPAL', 'BANK_TRANSFER', 'CASH')                                      not null,
    shipping_address varchar(255)                                                                                 null,
    created_at       timestamp                                                          default CURRENT_TIMESTAMP null,
    updated_at       timestamp                                                          default CURRENT_TIMESTAMP null on update CURRENT_TIMESTAMP,
    constraint reservations_ibfk_1
        foreign key (user_id) references test_db.users (id)
            on delete cascade,
    constraint reservations_ibfk_2
        foreign key (product_id) references test_db.products (id)
            on delete cascade
);

create index product_id
    on test_db.reservations (product_id);

create index user_id
    on test_db.reservations (user_id);

create table if not exists test_db.logs
(
    id             bigint auto_increment
        primary key,
    action         varchar(255)                   null,
    created_at     datetime(6)                    not null,
    log_type       enum ('ERROR', 'INFO', 'WARN') null,
    message        varchar(255)                   null,
    reservation_id bigint                         null
);

그 다음 아래의 명령어를 실행하여 필요 library를 설치합니다.

1
pip install mysql-connector-python faker tqdm

마지막으로 python script를 실행합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
import mysql.connector
from faker import Faker
import random
from tqdm import tqdm

# MySQL 연결 설정
conn = mysql.connector.connect(
    host="localhost",
    user="test",
    password="test",
    database="test_db"
)
cursor = conn.cursor()

fake = Faker()
BATCH_SIZE = 10_000

# 카테고리 및 결제 수단 정의
PRODUCT_CATEGORIES = ['ELECTRONICS', 'FASHION', 'FOOD', 'BOOKS', 'HOME', 'SPORTS']
PAYMENT_METHODS = ['CREDIT_CARD', 'PAYPAL', 'BANK_TRANSFER', 'CASH']

print("Inserting users...")
users = [
    (fake.name(),
    fake.email(),
    fake.phone_number(),
    fake.address(),
    fake.date_of_birth(minimum_age=18, maximum_age=80)) # 18살 이상 80세 이하
    for _ in range(10)
]
for i in tqdm(range(0, len(users), BATCH_SIZE)):
    cursor.executemany("INSERT INTO users (name, email, phone, address, birthdate) VALUES (%s, %s, %s, %s, %s)", users[i:i+BATCH_SIZE])
    conn.commit()

print("Inserting products...")
products = [
    (fake.word(),
    random.choice(PRODUCT_CATEGORIES),
    fake.sentence(),
    round(random.uniform(10, 500), 2),
    random.randint(1, 100))
    for _ in range(10)
]
for i in tqdm(range(0, len(products), BATCH_SIZE)):
    cursor.executemany("INSERT INTO products (name, category, description, price, stock) VALUES (%s, %s, %s, %s, %s)", products[i:i+BATCH_SIZE])
    conn.commit()

# users, products ID 가져오기
cursor.execute("SELECT id FROM users")
user_ids = [row[0] for row in cursor.fetchall()]
cursor.execute("SELECT id FROM products")
product_ids = [row[0] for row in cursor.fetchall()]

print("Inserting reservations...")
reservations = [
    (random.choice(user_ids),
    random.choice(product_ids),
    random.randint(1, 5),
    round(random.uniform(20, 2500), 2),
    random.choice(['PENDING', 'CONFIRMED', 'CANCELLED', 'SHIPPED', 'DELIVERED']),
    random.choice(PAYMENT_METHODS), fake.address())
    for _ in range(10)
]
for i in tqdm(range(0, len(reservations), BATCH_SIZE)):
    cursor.executemany("INSERT INTO reservations (user_id, product_id, quantity, total_price, status, payment_method, shipping_address) VALUES (%s, %s, %s, %s, %s, %s, %s)", reservations[i:i+BATCH_SIZE])
    conn.commit()

# reservations ID 가져오기
cursor.execute("SELECT id FROM reservations")
reservation_ids = [row[0] for row in cursor.fetchall()]

print("Inserting logs...")
logs = [
    (random.choice(reservation_ids),
    random.choice(['INFO', 'WARN', 'ERROR']),
    fake.sentence(),
    '{"source": "system", "debug_id": "' + fake.uuid4() + '"}',
    fake.date_time_between(start_date="-5y", end_date="now"))
    for _ in range(10)
]
for i in tqdm(range(0, len(logs), BATCH_SIZE)):
    cursor.executemany("INSERT INTO logs (reservation_id, log_type, message, action, created_at) VALUES (%s, %s, %s, %s, %s)", logs[i:i+BATCH_SIZE])
    conn.commit()

print("Data Insertion Complete!")
cursor.close()
conn.close()

아래와 같이 손쉽게 데이터가 들어가는 것을 볼 수 있습니다.

alt text

결론

faker는 다양한 유형의 가짜 데이터를 생성하는 강력한 라이브러리입니다.

로컬라이제이션을 활용하여 다양한 국가의 데이터를 생성할 수 있으며 시드 설정을 통해 재현 가능성을 보장할 수 있습니다.

이러한 특성으로 데이터베이스, JSON, Django 모델 등 다양한 환경에서 활용할 수 있습니다.

[출처]

  • https://pypi.org/project/Faker/
  • https://github.com/joke2k/faker
  • https://faker.readthedocs.io/en/master/index.html
This post is licensed under CC BY 4.0 by the author.