Ongoing Academic

Development of Generative Models to Safe and Trustworthy AI (안전하고 신뢰가능한 인공지능을 위한 생성 모델 개발)

Evaluate privacy threats and security vulnerabilities in generative AI models, and develop algorithms to ensure safe AI usage.

Period Mar 2025 – Feb 2027 Funded by MSIT (과학기술정보통신부) Role PI

연구 배경 및 목적

생성형 AI(확산 모델, 대형 언어 모델 등)의 급속한 발전으로 다양한 분야에서 고품질 콘텐츠 생성이 가능해졌지만, 동시에 프라이버시 침해, 저작권 문제, 편향 증폭 등 새로운 위험도 부각되고 있습니다.

본 연구는 생성형 AI 모델이 내포한 잠재적 보안 취약성을 체계적으로 평가하고, 안전하고 신뢰가능한 AI 활용을 위한 핵심 알고리즘을 개발하는 것을 목표로 합니다.

신뢰성·안전성 평가 방법론 개발

생성형 AI 모델의 프라이버시 침해 가능성과 보안 취약성을 정량적으로 측정하는 평가 프레임워크를 구축합니다. 모델이 학습 데이터를 기억하거나 민감 정보를 노출하는 정도를 체계적으로 분석합니다.

Privacy-Enhancing Technology (PET) 개발

차분 프라이버시(Differential Privacy)와 머신 언러닝(Machine Unlearning) 기법을 생성형 AI에 적용하여, 프라이버시를 보장하면서도 생성 품질을 유지하는 알고리즘을 연구합니다.

Plug-and-Play 보안 알고리즘 연구

파운데이션 모델(Foundation Model)에 별도의 재학습 없이 적용 가능한 모듈형 보안 알고리즘을 개발합니다. 다양한 모델 아키텍처에 범용적으로 활용할 수 있는 형태를 지향합니다.

생성형 AI 모델 사용 중 발생할 수 있는 프라이버시 침해를 사전에 방지하고, 악의적인 공격으로부터 방어 체계를 구축합니다. 이를 통해 AI 기술의 공학적 안전성을 높이고 사회적 수용성을 향상시키는 데 기여하고자 합니다.