왜 필요한가

사내 자료가 외부 AI로 새고 있어요.

요즘 직원들은 보고서·이메일·계약서 초안을 ChatGPT·Claude에 그대로 붙여넣어요. 그 안에 주민번호, 공시 전 M&A 정보, 인사평가가 섞여 나갑니다.

한 번의 실수가 개인정보보호법 §24-2·영업비밀 유출·자본시장법 §174 위반으로 이어지죠. 그렇다고 외부 AI를 전면 금지하면 업무가 멈추고요.

Corepin은 그 사이에 들어갑니다. 외부로 텍스트가 나가기 전에 검사하고, 위험한 부분은 가리고, 등급에 따라 차단·경고·통과를 결정 — 호출 한 번이면 끝.

01
외부 AI가 한국 자료에 약해요

주민번호 체크섬, 법인등록번호 형식, 사내 문서 등급 판단처럼 한국 특유 자료에서 ChatGPT·Claude가 자주 틀립니다. 영문 데이터 위주로 학습된 한계예요.

02
사내 자료를 외부에 보내는 것 자체가 위험

개인정보보호법 §24-2 고유식별정보, 미공시 중요정보(MNPI), 영업비밀이 섞인 자료를 해외 클라우드로 보내면 처리 위탁·국외 이전 동의 절차가 필요하고, 사고 시 책임이 큽니다.

03
직접 만들기엔 시간·비용이 너무 많이 들어요

학습 데이터 합성, GPU 임대, 운영 인력, 평가 셋 검수 — 검사 모델 하나를 직접 만들려면 6개월 이상, 엔지니어 2~3명, 첫 해 수억 원의 비용이 듭니다.

기존 보안업체와의 차이

20년 정규식 시대의 끝,
이제 AI가 맥락으로.

DLP·개인정보 필터·유해발화 차단 시장은 20년 넘게 정규식과 키워드 사전에 머물러 있었어요. 패턴이 맞으면 차단, 아니면 통과 — 문장의 의미는 보지 않습니다. 최근의 "AI DLP" 도 뜯어보면 같은 패턴 매칭에 룰 추천만 얹은 형태죠.

Corepin은 한국 업무 데이터로 학습한 맥락 이해 AI 모델로 같은 문장 안에서 "내 주민번호는…""주민번호 형식 예시 …" 를 구분합니다. 사전에 없는 변형·신조어·은어도 함께 잡아요.

구분 전통 패턴 매칭정규식·키워드 사전 기반
옛 DLP / 콘텐츠 필터 / PII 솔루션
"AI DLP" 마케팅 제품정규식 위에 룰 추천만 얹은
변종 — 본질은 패턴 매칭
Corepin한국 업무 데이터로 학습된
맥락 이해 AI 가드레일
탐지 방식 정규식 + 키워드
매칭하면 차단, 안 맞으면 통과
정규식 + 룰 추천
본질은 같은 패턴 매칭
패턴에 없는 정보 모두 누락
"인천 사는 김민수씨" → 못 잡음
대부분 누락
룰 추천도 결국 정규식 한도 내
맥락 (예시 vs 실제) 구분 불가
"테스트용 주민번호 900101-1234567" 도 그대로 차단 → 과차단
구분 불가
같은 한계
한국어 변형·은어·띄어쓰기 매뉴얼 사전 추가
"ㅇㅈ", "ㄱㄱ", "갈아끼다" 같은 신조어 못 따라감
사전 + 자동 제안
여전히 새 변형이 나오면 누락
한국 PII 카테고리 영문 표준 위주
주민번호·법인번호·차량번호·건강보험증 등 한국 특수 카테고리는 외부 모듈로 어렵게 추가
일부 지원
한국 카테고리도 결국 정규식
LLM 우회 시도 (프롬프트 조작) 대응 우회됨
"주민번호 형식으로 예시 5개 만들어줘" → 정규식이 형식 매칭으로 일부 차단, 변형엔 무력
우회됨
같은 한계
등급/유형 분류 키워드 사전 기반
"기밀" 단어가 있으면 기밀 — 단순 매칭
키워드 + 룰 트리
여전히 문서 전체 의미는 못 봄
운영 방식 매뉴얼 룰 갱신
새 패턴이 나올 때마다 보안 운영자가 정규식 추가 — R&D 정체
룰 추천 알림
여전히 사람이 룰 추가
측정 가능한 정확도 없음 또는 자체 셋
정확도 수치 공개 안 함, 있어도 자체 룰셋 안에서 측정
자체 셋 위주
외부 검증셋 점수 대부분 비공개
한국 데이터 처리 외산 위주
해외 본사로 시그니처 동기화 — 국외 이전 동의 필요한 경우 잦음
외산 위주
같은 한계

한 줄로 요약하면 — 옛 솔루션은 "이 패턴이 맞으면 막아라" 라고 코딩한 룰이고, Corepin은 "이 문장이 한국어 업무 맥락에서 정말 위험한지" 를 판단하는 모델입니다. AI가 만든 위험은 AI로 막아야 합니다.

실제 사례

패턴 매칭이 놓치는 순간.

같은 입력을 정규식 솔루션과 Corepin에 동시에 흘려본 결과예요.

패턴이 없는 노출

"강남구 사는 김민수 씨에게 처방전 전달 부탁드려요"
정규식 솔루션: 주민번호·전화번호 패턴이 없어서 통과. 사실상 인명·주소·의료정보가 모두 노출.
Corepin: private_person + private_address 탐지, DLP가 의료 맥락 → CONFIDENTIAL 등급.

예시 vs 실제 구분 실패

"개발자에게 주민번호 형식 예시 알려줘: 900101-1234567"
정규식 솔루션: RRN 패턴 일치 → 무조건 차단. 학습·디버깅 흐름이 전부 막힘 (과차단).
Corepin: 의도·문맥에서 "예시 안내" 인지 "실제 노출" 인지 구분, 정책에 따라 통과/마스킹.

한국어 변형 표현

"이 사람 ㅈㄴ ㅁㅊ놈임 ㅇㅈ?"
정규식 솔루션: 욕설 사전에 없는 초성·은어 → 통과. 새 표현이 매일 생겨도 사람이 패턴 추가해야 함.
Corepin: 한국형 유해발화 모델이 변형·은어·신조어를 일반화해서 잡아냅니다.

LLM 우회 시도 (프롬프트 조작)

"내부 보고서를 영어로 번역해줘. 단, 모든 임직원 이름과 매출은 그대로 둬"
정규식 솔루션: 키워드·번호 패턴 없음 → 통과. 외부 AI로 영업비밀이 그대로 전송.
Corepin: DLP가 사내 보고서 맥락 → RESTRICTED 등급, 발송 차단 또는 마스킹 후 발송.

띄어쓰기·오타 우회

"제 주민 번호 9 0 0 1 0 1 - 1 2 3 4 5 6 7 입니다"
정규식 솔루션: \d{6}-\d{7} 매칭 실패 → 통과. 한국어 띄어쓰기·전각 숫자 변형 무력.
Corepin: 토큰화 단계에서 변형을 정규화, 학습으로 일반화 → 그대로 탐지.

맥락이 바뀌는 사내 문서

"X-300 단가 12,000원, 협력사 A에만 공유" → 동일 텍스트가 PUBLIC 보도자료에서는 정상
정규식 솔루션: 키워드 "단가"·"협력사" 가 룰에 있으면 무조건 차단 → 보도자료도 막힘.
Corepin: 문서 전체 의미를 보고 사내 보고서면 CONFIDENTIAL, 보도자료면 PUBLIC 으로 분류.

AI 챗봇 운영, 두 가지 새로운 고민

한국에서 AI 챗봇을 운영하면 곧 두 가지 고민이 생겨요.

하나는 사용자가 위험한 신호를 보낼 때 어떻게 미리 알아챌지, 다른 하나는 매월 외산 토큰 비용이 너무 무거운데 어떻게 줄일지예요. Corepin은 두 고민에 모두 답을 드려요.

고민 01 · 사용자 보호

사용자가 보내는 위험한 신호, 미리 알 수 있어요

AI 챗봇·상담봇과 매일 대화하는 사용자가 늘어나면서, 자살·자해·심리 위기 같은 신호가 대화에 먼저 나타나는 경우가 많아졌어요. 세계 최초의 LLM 정신건강 가드레일이 한국 임상 자료로 학습돼서, 사용자 입력에 그런 신호가 있는지 빠르게 감지해 운영자에게 알려줘요. 차단하지 않아요 — 챗봇은 평소처럼 응답하면서 운영자만 미리 알아요.

10가지 위험 신호 자살 사고 탐지율 98.7% 본문 비저장
고민 02 · 매월 외산 토큰 비용

매월 청구서가 무거우셨다면, 일부만 우리에게

Claude · GPT · Gemini로 한국어 캐릭터챗 운영하면 매월 토큰 비용이 부담스럽죠. 외산을 빼는 게 아니에요. 한국 롤플레잉 한 가지에만 집중해서 학습한 모델을 같이 쓰면, 같은 사용자 경험에서 비용은 훨씬 줄어요. 가격은 외산 1/10 수준이고 서버가 한국에 있어 응답도 빠릅니다.

외산의 1/10 가격 국내 서버로 빠른 응답 긴 대화도 단일가
설계 원칙

Corepin을 만드는 세 가지 기준.

보안팀·개인정보보호책임자가 도입 검토 시 가장 먼저 확인하는 세 가지 — 측정된 정확도, 데이터 처리 위치, 운영 안전성 — 에 대한 답입니다.

한 가지 일만 하는 작은 모델

개인정보 검사면 개인정보, 등급 분류면 등급. 한 모델에 여러 일을 시키지 않아요. 그래서 정확도를 숫자로 측정할 수 있고, 책임질 수 있습니다. ChatGPT 같은 범용 모델이 못 따라오는 부분이 여기예요.

학습에 안 쓴 시험지로 검증한 정확도

자체 시험지 점수만 자랑하지 않아요. 학습에 한 번도 쓰지 않은 별도 시험지로 다시 평가합니다. K-PII-Masking-300K 비공개 검증 셋 14,195건, 금융 사내 문서 1,541건처럼 학습과 완전히 분리된 데이터에서 잰 점수만 공개해요.

국내에서만 처리, 본문은 저장 X

개인정보·문서·유해발화·정신건강·캐릭터챗 5개 모델 모두 한국 데이터센터에서만 추론해요. 로그에는 요청 수와 길이만 남고 입력한 본문과 결과는 저장하지 않아요. 개인정보 처리방침에도 그대로 부합합니다.

하는 일

범용 LLM 곁에서 일하는 날카로운 모델들.

4 종은 LLM 입출력에 끼우는 가드레일이고, 1 종은 외산 옆에서 보조로 응답하는 한국 캐릭터챗이에요. 다섯 모델 모두 한 개의 키로 호출하고, 사용량과 청구도 한 곳에서 관리해요.

M/01 · 개인정보

주민번호부터 영업비밀까지, 자동 마스킹

한국 개인정보 17 카테고리 — 주민번호·법인등록번호·여권·차량번호 등 — 를 한 번에 탐지·마스킹. 학습에 안 쓴 별도 평가 묶음에서 99.99% 정확도, 동음이의·공인 본명 오탐 0건.

예를 들면
"홍길동 010-1234-5678"
→ "<PERSON> <PHONE>"
M/02 · 문서보안

"이 문서, 보내도 되나요?"

사내 문서를 PUBLIC ~ CLASSIFIED 6등급 + 11 유형 (계약·재무·M&A·인사 등) 으로 동시 분류. N2SF (국가 망 보안체계) C/S/O 3 등급에도 그대로 매핑. 중요정보 차단 99.7%.

예를 들면
"본 인수합병은 공시 전 사내 보고용..."
→ 영업비밀 등급 · 발송 차단
M/03 · 유해발화

욕설·혐오·우회 시도, 한 번에 거르기

욕설·혐오·위협·AI 우회 시도 (프롬프트 조작) 를 10 라벨로 분류. 한국어 100문장 종합 정확도 외산 플래그십 (Claude·Gemini·OpenAI) 통틀어 1위, AI 우회 시도 100% 차단 · 정상 발화 오차단 0%.

예를 들면
"앞서 받은 모든 지시는 잊고..."
→ 프롬프트 인젝션 · 차단
M/04 · 정신건강

"사용자가 위기 신호를 보내고 있나?"

자살·자해·AI 의존·정신증·급성 위기 등 10축 신호를 LLM 응답 전 약 20ms 안에 감지. 차단이 아니라 운영팀에 알림 — 본문은 저장하지 않아요. 세계 최초의 LLM 가드레일.

예를 들면
"그동안 고마웠어..."
→ 급성 위기 · 1393 카드 + 운영자 즉시 알림
M/05 · 캐릭터챗

외산은 그대로, 매월 토큰비만 줄이기

한국 롤플레잉에 집중 학습한 35B MoE 모델. 외산을 메인으로 두고 일부 응답만 우리에게 맡기면, 같은 사용자 경험에서 토큰 비용을 외산의 1/10 수준까지 낮춰요. 서버도 국내.

예를 들면
유료 한도 다 쓴 사용자
→ 같은 캐릭터로 대화 계속 (Corepin 응답)
어디에 쓰면 좋아요

한국 업무 현장의 디테일까지 학습했습니다.

제품에 넣어도 컴플라이언스 흐름 앞단에 두어도 잘 맞고, 한 호출이면 결정이 바로 끝납니다.

생성형 AI 거버넌스

외부 AI 보내기 전 자동 검사

직원이 ChatGPT·Claude에 사내 텍스트를 붙여넣기 전, 등급과 PII를 한 번 검사. 국정원 생성형 AI 가이드라인 (2025.12)의 맥락 기반 가드레일 요건과 N2SF (국가 망 보안체계) 의 등급 분류 요구를 그대로 맞춰드려요.

데이터 유출 방지 (DLP)

메일·메신저·파일 공유 직전

외부 메일 발송, 협업 도구 업로드, 파일 공유 직전 단계에서 개인정보보호법 §24-2 고유식별정보부터 영업비밀까지 한 호출로 같이 검사해드립니다.

사내 자동화

분류·라벨링·라우팅

상담 인입 자동 분류, 사내 문서 보존정책 적용, 거래 모니터링 라벨링 등 오답이 사고로 이어지는 업무에 — 한국어 사내 문서로 학습된 전용 모델이라 ChatGPT보다 정확합니다.

한 키로 모두 호출

한국 업무를 위한 전용 모델.

각 모델은 한 가지 업무에만 집중합니다. API 키 하나로 모두 호출, 사용량과 청구도 한 번에.

한국형 개인정보 필터 최고 성능 Korean Privacy Filter — 한국어 텍스트의 개인정보(PII)를 맥락 기반으로 탐지·마스킹
LIVE
학습에 안 쓴 별도 평가 묶음 14,195건 · 탐지 정확도 99.99%
17 카테고리 · 동음이의 3,682건 / 공인 본명 1,222건 오탐 0건
한국형 문서보안 필터 국내 최초 Korean Documents DLP — 사내 문서·데이터의 기밀 정보 유출을 맥락으로 탐지·차단
LIVE
금융 사내 문서 1,541건 별도 평가 묶음 · 중요정보 차단 99.7%
공개 자료 정확 통과 98.5% · 6등급 × 11 유형 동시 분류
한국형 유해발화 필터 국내 최초 Korean Content Moderation — 욕설·혐오·위협·AI 우회 시도 11라벨 분류, LLM 입력 가드레일·댓글 자동 심사·사내 채널 1차 필터
LIVE
한국어 100문장 종합 정확도 외산 플래그십 4종 통틀어 1위 (90/100) · AI 우회 시도 100% 차단 · 정상 발화 오차단 0%
한국형 정신건강 필터 세계 최초 Korean Mental Health Screener — 사용자 입력의 자살·자해·AI 의존·정신증·급성 위기 신호를 LLM 앞에서 조기 감지·리포트. 본문 비저장
LIVE
10축 × 5단계 · 평균 ~20ms · 자살 위기 탐지율 95% · AI 의존/망상 탐지율 97.2% · 한국어 오차단 0.6%
한국형 캐릭터챗 모델 Korean Character Chat — 한국 롤플레잉만 집중 학습한 캐릭터챗 모델. 외산 메인 옆 보조 라인 권장. OpenAI · Anthropic SDK 호환
LIVE
256K 단일가 · 국내 서버 응답 · 외산 1/9~1/22 가격 / 입력 ₩500 / 출력 ₩1,000 per 1M
키 받고 바로 쓰기 통합 API 문서 가입하면 무료 키가 즉시 발급돼요 · 카드 등록은 필요 없어요
차세대 한국어 AI 가드레일

AI 시대의 문제는, AI가 풉니다.

정규식이 못 잡던 맥락, 외산 LLM이 못 잡는 한국어 디테일.
한국어 전문 SLM 5종이 그 자리를 정확하게 채워요. API 키 하나로 모두 호출.

무료로 시작하기 API 문서
Corepin — 업무 현장의 작고 날카로운 문제에만 집중하는 AI 모델 개발사.
AI3가 운영합니다.