| Browse Archives | About JKSC | Guidelines for Auhors | JSKC Regulations |
Sorry.
You are not permitted to access the full text of articles.
If you have any questions about permissions,
please contact the Society.
죄송합니다.
회원님은 논문 이용 권한이 없습니다.
권한 관련 문의는 학회로 부탁 드립니다.
| [ Article ] | |
| Journal of the Korean Society of Costume - Vol. 75, No. 5, pp. 71-85 | |
| Abbreviation: JKSC | |
| ISSN: 1229-6880 (Print) 2287-7827 (Online) | |
| Print publication date 30 Oct 2025 | |
| Received 15 Jul 2025 Revised 30 Jul 2025 Accepted 01 Aug 2025 | |
| DOI: https://doi.org/10.7233/jksc.2025.75.5.071 | |
| 대형 언어 모델을 활용한 패션 브랜드 소비자 댓글 분석 : 국내 애슬레저 브랜드를 중심으로 | |
| 더아이엠씨 수석연구원 | |
| 군산대학교 의류학부 부교수 | |
| 서울대학교 생활과학대학 강사 | |
| +군산대학교 의류학부 연구교수 | |
Analyzing Consumer Comments on Fashion Brands Using Large Language Models : Focusing on a Korean Athleisure Brand | |
| The IMC, Principal researcher | |
| Associate Professor, School of Clothing and Textiles, Kunsan National University | |
| Lecturer, Consumer Science Department, Sungkyunkwan University | |
| +Research Assistant Professor, School of Clothing and Textiles, Kunsan National University | |
| Correspondence to : Woojin Choi, e-mail: woojin.choi@kunsan.ac.kr | |
Funding Information ▼ | |
Large language models (LLMs) are revolutionizing technologies and industries, excelling at processing and analyzing massive amounts of textual data. Against this backdrop, this study explores consumer perceptions and evaluations of fashion brandsand products by applying an LLM to analyze actual consumer comments. Moving beyond traditional text-mining approaches such as LDA and TF-IDF, this research employs OpenAI’s text-embedding-3-small model to generate semantic embeddings of consumer reviews collected from a leading Korean athleisure brand. Using K-means clustering and silhouette scores, this study identifies seven meaningful topics: (1) product appreciation, (2) brand impressions, (3) product sizing, (4) product color, (5) ease of use for exercise, (6) wearing comfort, and (7) various overall evaluations. These topics reveal that consumers’ evaluations extend beyond purely functional benefits to include subtle emotional and aesthetic responses, suggesting the salience of psychological and experiential factors in fashion purchases. This study demonstrates that LLM-based embedding techniques can effectively structure qualitative consumer opinions into interpretable themes, offering both methodological advancements and theoretical insights, and it provides practical implications for fashion brands seeking to better understand and respond to the nuanced drivers of consumer satisfaction.
| Keywords: consumer reviews, digital transformation, fashion big data, fashion data analysis, large language model, text-mining 키워드: 소비자 리뷰, 디지털 전환, 패션 빅데이터, 패션 데이터 분석, 대형 언어 모델, 텍스트마이닝 |
|
빠르게 성장하는 글로벌 패션 시장 속에서 디지털 전환 (Digital transformation; DX)과 인공지능 전환 (Artificial intelligence transformation; AX)은 패션 산업의 핵심 트렌드로 자리매김하고 있다 (Choi et al., 2023). 특히 온라인 패션 커머스의 급속한 확산은 오프라인 중심의 전통적 리테일러들마저 온라인 유통 채널로의 확장을 촉진시키며, 패션 산업 전반의 디지털화를 가속화하고 있다. 이러한 산업의 디지털화는 방대한 규모의 패션 데이터를 생성하고 있으며, 이는 새로운 산업적 기회를 창출하는 중요한 기반이 되고 있다. 오늘날 데이터는 기업 경쟁력의 핵심 자원으로 간주되며, 패션 산업에서도 데이터 기반 의사결정과 전략 수립은 선택이 아닌 필수로 자리 잡았다 (Rockett et al., 2025). 특히 온라인상에서 생성되는 텍스트 데이터는 패션 브랜드와 기업에 풍부한 정보를 제공하며, 이를 활용하여 패션 브랜드들은 소비자의 선호, 트렌드 변화, 시장 반응을 면밀히 파악하기 위해 방대한 양의 데이터를 수집하고 분석하려는 노력을 기울이고 있다. 특히, 패션은 본질적으로 주관적인 요소가 강하게 작용하는 분야로, 소비자들의 의견과 반응이 주로 리뷰, 댓글, SNS 게시글 등 비정형 텍스트 데이터 형태로 나타난다 (Park & Kim, 2014). 이러한 텍스트 데이터는 표와 수치로 구성된 정형 데이터와 달리 그 자체로 해석과 구조화가 복잡하며, 전문적인 자연어처리 기술 없이는 소비자의 내면적 니즈와 반응을 체계적으로 파악하기 어렵다. 나아가, 많은 패션 기업, 특히 중소규모 브랜드들은 전문 데이터 분석 인력을 보유하지 못해 이러한 방대한 텍스트 데이터를 충분히 활용하지 못하거나, 분석 자체를 시도하지 못하는 경우가 많다.
한편, 대형 언어 모델 (Large Language Model; LLM)은 기술과 산업 전반에 걸쳐 획기적인 변화를 이끌고 있다 (Kumar, 2025). 대형 언어 모델은 방대한 양의 텍스트 데이터를 학습하여 자연어 이해 및 생성 작업에 사용되는 것으로, 자연어 처리 기술을 기반으로 한 이들 모델은 텍스트 생성, 요약, 번역, 대화 응답 등 다양한 기능을 수행할 수 있다 (Zubiaga, 2024). 현재는 일상 생활뿐만 아니라 기업의 비즈니스 활동 전반에도 폭넓게 활용되고 있는데, 특히 마케팅 분야에서는 개인화된 이메일 캠페인, 소셜 미디어 콘텐츠 제작, 챗봇 기반 고객 서비스 제공 등에서 대형 언어 모델의 활용 가능성이 주목받고 있다. 무엇보다도 대형 언어 모델은 방대한 텍스트 데이터를 처리하고 분석하는 데 뛰어난 성능을 보이며, 이를 통해 소비자의 의견, 감정, 요구를 보다 정밀하게 파악할 수 있는 새로운 가능성을 제시한다 (Ghatora et al., 2024; Krugmann & Hartmann, 2024). 이에 따라 대형 언어 모델을 활용한다면 기업은 고객 맞춤형 커뮤니케이션을 보다 쉽고 효율적으로 수행하고, 이는 소비자 경험의 질적 향상으로 이어질 것으로 기대되기도 한다.
최근 패션 분야의 연구에서도 소비자 리뷰, 소셜미디어 게시물, 제품 후기 등 방대한 텍스트 데이터를 분석하여 소비자 인사이트를 도출하려는 시도가 활발히 이루어지고 있다 (Blasi et al., 2020; Kim & Byun, 2020; Seon et al., 2021). 이러한 텍스트 분석 연구에서는 주로 LDA (Latent Dirichlet Allocation)를 활용한 토픽 모델링, 카운트 벡터라이즈 (Count vectorizer) 혹은 TF-IDF (Term Frequency–Inverse Document Frequency) 기반의 벡터화 방식이 주로 사용되어 왔다. 이들 기법은 단어의 출현 빈도나 역문서 빈도를 중심으로 문서를 수치화하고, 통계적 방법을 통해 토픽을 추출하는 방식으로, 비교적 직관적이며 구현이 용이하다는 장점이 있다 (Jelodar et al., 2019). 그러나 이러한 전통적인 벡터라이즈 방식은 단어 간 문맥적 관계를 충분히 반영하지 못한다는 한계가 존재한다. 반면, 본 연구에서는 최신의 상용화된 대형 언어 모델 중 하나인 OpenAI의 텍스트 임베딩 모델 (text-embedding-3-small)을 사용하여 문장 수준의 임베딩 벡터를 추출하였다. 본 모델은 Transformer 기반의 자연어 처리 (Transformer-based NLP) 기술을 바탕으로 문장의 의미를 고차원 벡터 공간에 압축하는 방식을 사용하는데, 이는 단순히 단어의 빈도만 고려하는 것이 아니라, 문장 내에서 단어가 어떠한 의미론적 맥락에서 사용되는지를 학습하여 반영함으로써, 보다 정교하게 의미적 유사성을 계산할 수 있다는 점에서 중요한 강점을 가진다 (Odden et al., 2024). 따라서 본 연구가 채택한 임베딩 방식은 패션 제품과 관련된 소비자 의견의 미묘한 뉘앙스 차이를 보다 정확히 포착할 수 있게 해준다. 또한 Transformer 기반 임베딩은 대규모 사전 학습을 통해 언어의 구조와 의미를 심층적으로 이해하고 있기 때문에, 상대적으로 소규모의 데이터셋에서도 문맥 기반 의미를 효과적으로 추출할 수 있다는 장점이 있다.
이에 따라 본 연구는 기존의 단어 수준 벡터화 방식 대신, 대형 언어 모델(LLM) 기반의 최신 문장 임베딩 기법을 활용하여, 소비자 댓글로부터 주요 토픽을 보다 정밀하게 추출, 분석하는 것을 목적으로 한다. 특히, 분석 대상 브랜드로 애슬레저 (athleisure) 패션 브랜드를 선정한 이유는, 국내 애슬레저 패션 브랜드가 온라인을 기반으로 큰 성장을 이루어낸 분야이기 때문이다 (An, 2022). 이러한 특성은 실제 구매 및 사용 경험을 기반으로 한 소비자 피드백을 다량 확보할 수 있다는 점에서 연구 적합성을 높인다. 또한, 분석 자료로 소비자 댓글을 선택한 것은, 해당 데이터가 소비자들이 자발적으로 작성한 것으로서 제품에 대한 평가, 기대 충족 여부, 불만 및 개선 요구 등 실제 소비자 경험과 인식을 가장 직접적으로 반영하기 때문이다. 나아가, 댓글에는 설문이나 인터뷰에서 드러나기 어려운 솔직한 감정과 평가가 포함되는 경우가 많기 때문에, 소비자 댓글을 정량적으로 분석하면, 소비자들이 해당 제품에 대해 어떻게 느끼고, 무엇을 중요하게 평가하는지 등의 것들을 데이터에 기반하여 파악할 수 있다. 뿐만 아니라, 이러한 분석은 패션 브랜드가 향후 제품 기획, 디자인 개선, 마케팅 전략을 수립하는 데 있어 신속하고 실질적인 의사결정을 내리는 데 직접적으로 활용될 수 있다는 점에서 큰 실무적 의의를 가진다. 나아가, 본 연구에서 제안한 방법론은 전문적인 코딩 역량 없이도 상용화된 대형 언어 모델과 오픈소스 문장 분리기를 활용해 손쉽게 구현할 수 있어, 패션 산업에서 데이터 기반 의사결정을 위한 실무적 접근성을 크게 높인다는 점에서도 학문적, 산업적 기여를 갖는다.
텍스트 데이터는 온라인상에서 소비자들의 행동과 의견을 직접적으로 파악할 수 있는 중요한 자료로서 가치를 지닌다 (Ki et al., 2025). 특히 오늘날과 같이 소비자들이 다양한 온라인 플랫폼과 소셜미디어에서 상당한 시간을 보내며 활발히 의견을 공유하는 환경에서는, 이러한 텍스트 데이터가 소비자의 활동 양상과 심리적 동인을 이해할 수 있는 유의미한 단서를 제공하기도 한다. 소비자들은 온라인상에서 다양한 형태 (e.g., 댓글, 게시물, 등) 형태로 자신의 제품 경험, 제품에 대한 기대, 만족도, 불만을 자유롭게 표현하며, 이는 기업이 전통적인 설문조사나 인터뷰를 통해 얻기 어려운 솔직하고 자연스러운 소비자 인사이트를 포착할 수 있게 한다 (Park & Kim, 2014). 특히 패션 브랜드의 입장에서 소비자 댓글과 리뷰는 브랜드 이미지, 제품 신뢰도, 향후 구매 행동에 직결될 수 있는 중요한 정보원천이다 (Kawaf & Istanbulluoglu, 2019). 소비자들이 남긴 긍정적 혹은 부정적 평가가 잠재적 구매자에게 직간접적으로 영향을 미치며, 브랜드의 마케팅 전략과 제품 개발, 서비스 개선 방향을 결정하는 데 중요한 역할을 하기 때문이다. 따라서 온라인 텍스트 데이터, 특히 소비자 댓글은 소비자가 제품을 어떻게 인식하고, 무엇을 가치 있게 여기며, 어떠한 개선을 요구하는지에 대한 생생한 증거를 제공하는 동시에, 브랜드가 시장에서 지속가능한 경쟁우위를 확보하기 위한 전략적 의사결정에 기초 자료로 활용될 수 있다는 점에서 큰 중요성을 가진다.
패션 산업의 디지털 전환(DX)과 인공지능 전환(AX) 흐름에 맞추어, 빅데이터 분석이 산업 전반에서 중요한 전략적 도구로 주목받고 있다. 빅데이터는 특히 트렌드 예측, 공급망 관리, 소비자 선호 및 감성과 같은 소비자 행동 분석 분야에서 활발히 활용되고 있다(Bertola & Teunissen, 2018). 최근 패션 산업에서도 인공지능 기술과 이를 기반으로 한 빅데이터 분석 역량이 기업의 성패를 가르는 중대한 경쟁요소로 부상하고 있으며(Choi et al., 2024), 이에 따라 학계에서도 빅데이터를 활용한 연구가 점차 확대되고 있다. 이러한 흐름은 기존의 설문 척도나 질문지법이 갖는 측정의 한계를 넘어, 컴퓨터 프로그램을 통해 방대한 비정형 데이터에서 유의미한 정보를 정량화할 수 있게 함으로써 가능해졌다(Moon & Kamakura, 2017).
텍스트마이닝은 비정형 데이터에서 의미있는 정보나 패턴을 추출하는 분석기법을 의미한다. 앞서 언급한 바와 같이 방대한 텍스트 속에서 유용한 인사이트를 찾아내어 의사결정에 활용하기 위해서다. 텍스트마이닝을 하기 위해서 사용하는 분석방법으로 Word frequency, TF-IDF(Term Frequency-Inverse Document Frequency), N-gram, Word2Vec, LDA(Latent Dirichlet Allocation) 등이 일반적으로 사용된다. Word frequency는 말 그대로 단어 빈도 분석하는 것으로 텍스트에서 단어 등장 횟수를 세는 가장 기본적인 방법으로 이를 통해 워드클라우드로 시각화하여 보여줄 때 주로 사용된다. TF-IDF는 문서 집합에서 단어의 중요도를 수치화 하는 방법으로 TF는 특정 문서에서 단어가 얼마나 가주 등장하는가를 의미하고 IDF는 단어가 전체 문서에서 얼마나 희귀한가를 의미한다. 자주 등장하는 단어는 즉 흔할수록 중요도가 떨어진다고 판단하는 것이다. 이 두 개의 개념을 동시에 고려하여 수치화하는 방법이 TF-IDF다. N-gram은 연속된 n개 단어를 묶어서 보는 분석방법으로 문장 구조를 파악하고 문맥적 의미를 추출하는데 사용된다. Word2Vec은 단어를 벡터로 변환해 의미의 유사성을 수치화 하는 것을 의미한다. 주변 단어 문맥을 기반으로 단어를 임베딩하여 문서간 유사도를 측정할 때 사용할 수 있으며 추천시스템, 분류, 군집화할 떄 활용할 수 있다. LDA는 문서 집합에서 잠재적인 주제를 자동으로 추출하는 확률 기반 모델을 의미한다. 이 분석은 문서들을 단어 단위로 토큰화한 후 단어들의 분포로부터 주제를 추정함으로써 문서가 어떤 주제로 구성되어 있는지를 알 수 있게 한다.
이와 같은 분석 방법으로 국내외 연구자들은 이를 기반으로 온라인상의 비정형 텍스트 데이터를 활용해 패션 분야의 다양한 문제를 탐구해 왔다. 예를 들어 Blasi et al. (2020)은 소비자들의 사회 의미망 분석(social network semantic analysis)을 통해 트위터에서 수집한 텍스트 데이터를 분석, 패션과 친환경성 개념 간의 관계를 밝혀 럭셔리 브랜드가 친환경 가치 지각과 유의한 상관관계가 있음을 발견하였다. 또한 텍스트 마이닝과 네트워크 분석을 활용해 코로나19 팬데믹 이후 소비자들의 패션 인식 변화를 살펴본 연구도 진행되었다 (Choi & Lee, 2020). Kim and Byun (2020)은 빈도 분석과 네트워크 분석을 통해 1980년대 부터 2020년대 까지의 패션 트렌드 키워드를 비교, 패션 트렌드의 순환성을 탐색하였다. Seon et al., (2021)는 2010년, 2015년, 2020년의 소셜 데이터를 5년 주기로 수집하여 스트리트 패션에 대한 대중의 관심사와 관련 속성을 TF-IDF 및 네트워크 분석 기법으로 분석하였다. 한편 Kim et al. (2022)은 유튜브 명품 후기 콘텐츠 댓글을 수집하여 TF-IDF와 감성분석을 통해 소비자 인식을 탐구하였으며, Ki et al. (2025)은 LDA 토픽모델링을 적용해 트위터에서 소비자들이 디지털 패션과 NFT 패션의 유사점과 차이점을 어떻게 인식하는지 분석하였다. 그러나 빈도분석, TF-IDF, LDA 토픽모델링과 같은 기존의 텍스트마이닝 기법들은 단어의 순서와 문맥을 고려하지 못한다는 한계를 지닌다 (Voskergian et al., 2024). 특히, LDA 토픽모델링은 단어-토픽 및 토픽-문서 간의 확률 분포에만 의존하기 때문에, 단어들 간의 의미론적 유사성을 효과적으로 포착하지 못한다는 한계가 있다.
대형 언어 모델의 비약적인 발전은 텍스트 분석을 이와는 다른 방법으로 가능하게 한다. 대형 언어 모델에 기반한 임베딩 (e.g., OpenAI의 임베딩 API)은 대규모 범용 텍스트 코퍼스를 사전 학습한 최신 Transformer 모델을 바탕으로 문장 의미를 수치화하기 때문에, 상대적으로 소규모의 특정 도메인 데이터만을 기반으로 학습되는 LDA에 비해 문맥과 의미를 훨씬 더 정교하게 포착할 수 있다 (Ghatora et al., 2024). 뿐만 아니라 또한 LDA는 학습에 사용된 데이터셋에 한정된 확률적 주제 분포를 추정하기 때문에, 그 결과가 의미적으로 제한적이며 일반화 가능성이 낮고, 파라미터 선택 및 초기값 설정에 따라 결과가 크게 달라져 동일한 결과를 재현하는 것이 쉽지 않다 (Mohammed & Al-augby, 2020). 대형 언어모델 기반 임베딩 (e.g., OpenAI의 임베딩) 모델은 누구나 동일한 API를 통해 접근 가능하며, 동일한 입력에 대해서는 항상 일관된 벡터를 반환하기 때문에 분석 과정의 투명성과 재현 가능성이 크게 향상된다 (Sun et al., 2025). 이러한 특성은 연구자가 동일한 데이터에 대해 언제든지 동일한 분석을 반복 검증할 수 있도록 하며, 향후 후속 연구에서도 용이하게 비교·확장할 수 있는 기반을 제공한다는 점에서 중요한 강점을 지닌다. 해당 연구방법은 결과를 문장으로 추출함으로써 더욱 정확한 맥락에서 도출된 결과를 해석할 수 있게 하기 때문에 훨씬 직관적이면서도 객관적인 해석이 가능하다. 이는 기존의 단어 빈도 기반의 텍스트마이닝의 한계점인 연구자의 주관적 해석을 극복할 수 있다는 점에서 차별점이 있다. 이에 본 연구는 대형 언어 모델을 활용한 텍스트마이닝 분석을 시도하고자 한다.
애슬레저(athleisure)는 ‘애슬레틱 (athletic)’과 ‘레저 (leisure)’의 합성어로, 스포츠웨어를 기반으로 하면서도 일상복으로 착용 가능한 활동적이고 편안한 스타일의 패션을 의미한다 (Rho, 2023). 최근에는 운동 목적 외에도 시간과 장소의 제약 없이 착용할 수 있는 일상복으로 활용되고 있으며, 특히 코로나19 팬데믹 이후 건강한 라이프스타일에 대한 사회적 관심이 높아지면서 애슬레저 패션 수요가 증가하였다. 국내 시장에서는 온라인 플랫폼을 중심으로 애슬레저 브랜드들이 빠르게 성장하고 있으며, 20~30대 소비자가 애슬레저 패션 제품의 주요 소비층으로 자리잡았다 (An, 2022).실제로 An(2022)은 애슬레저 제품 구매자의 약 60%가 인터넷 및 모바일 쇼핑을 통해 제품을 구매하고 있다고 보고하였다.
애슬레저 패션은 운동복의 기능성과 패션 감각이 결합된 캐주얼 웨어로, 전통적인 퍼포먼스 웨어 (performance wear)보다 활용도가 높고, 일상복으로도 충분히 기능한다 (Rho, 2023). 이에 따라 소비자들은 기능성뿐만 아니라 심미성과 착용감 등 다양한 가치를 동시에 추구하고 있다.예를 들어, 20대 여성은 착용감을, 20~40대 여성은 디자인을(Choi, 2020), 20~50대 여성은 소재의 기능성을 중요한 구매 기준으로 평가하였다 (Lee et al., 2017; Lee & Lim, 2021). 이처럼 애슬레저 패션 시장은 온라인 유통망을 중심으로 성장하고 있으며, 소비자들은 일상적 착용, 운동, 스타일링 등 다양한 목적을 기반으로 애슬레저 제품을 구매하고 있다.
패션 산업은 현재 디지털 전환과 더불어, 온라인상의 방대한 텍스트 데이터를 통해 소비자의 의견을 실시간으로 접할 수 있는 환경을 맞이하였다. 그럼에도 불구하고 기존 연구들은 주로 설문조사나 LDA, TF-IDF 기반 키워드 분석에 의존하여 소비자 인식을 탐색하는 데 한정되어 있어, 소비자의 정성적 데이터를 문장 의미 단위로 심층적으로 구조화하여 분석하는 데 한계가 존재한다. 최근 대형 언어 모델의 발전은 이러한 텍스트 데이터를 보다 정교하게 분석하고 문맥과 의미를 포착할 수 있는 가능성을 열어주었으며, 이를 통해 소비자의 생생한 의견을 보다 체계적으로 이해할 수 있는 새로운 분석 접근을 가능하게 했다. 특히 애슬레저 패션 브랜드는 온라인을 중심으로 성장해왔고, 소셜미디어 및 온라인 쇼핑몰을 통해 소비자 의견이 활발히 생성되는 특성을 지니고 있어 분석에 적합하다고 볼 수 있다. 따라서 본 연구는 대형 언어 모델을 활용해 국내 애슬레저 패션 브랜드의 온라인 리테일 환경에서의 소비자 댓글을 분석함으로써, 대형 언어 모델의 텍스트 분석 활용 가능성을 검증함과 동시에 소비자가 제품과 브랜드를 어떻게 인식하고 평가하는지를 확인하고자 한다. 이에 본 연구의 연구 문제는 다음과 같다.
연구 문제 1: 대형 언어 모델에 기반하여 패션 브랜드의 소비자 댓글을 분석함으로써, 소비자가 제품과 브랜드에 대해 지니는 주요 인식과 반응이 어떠한 주제로 구조화되는지를 규명하고자 한다.
본 연구는 패션 브랜드의 소비자 리뷰 데이터를 수집하여, 소비자들이 해당 브랜드와 제품에 대해 어떠한 생각과 반응을 가지고 있는지를 탐색하고자 하였다. 특히 상용화된 대형 언어모델을 활용하여 대규모 댓글 데이터를 의미적으로 유사한 주제별로 클러스터링함으로써, 소비자 반응의 주요 토픽을 체계적으로 도출·분석하였다. 본 연구의 연구 절차는 다음과 같다 <Fig. 1>.
(1) 데이터 수집: 국내 대표 애슬레저 브랜드를 선정하고, 해당 브랜드의 인기 상품을 무작위로 골라 총 10,000개의 댓글을 무작위로 수집하였다. 애슬레저룩은 단순한 미적 요소뿐 아니라 기능성도 중요하기 때문에 댓글에 다양한 주제가 포함되어 있을 것이라 판단하여, 국내 인기있는 에슬레저 브랜드를 데이터 수집 대상으로 선정하였다. (2) 문장 분리 (문장 분리기 선정 및 사용): 댓글의 경우, 하나의 문단 안에 여러 문장이 길고 복잡하게 섞여 있는 경우가 많기 때문에, 이를 문장 단위로 분리해주는 자동 문장 분리기가 필요하다. 본 연구에서는 이러한 필요에 따라 Kiwi, Kkma, KSS등 세 가지 한국어 문단 분리기 도구를 사전에 비교·분석하였으며, 그중 정확도가 가장 높은 KSS 도구를 본 연구의 문장 분리 작업에 최종적으로 활용하였다. (3) 텍스트 임베딩 (text embedding): 문장을 분리한 이후에는, 각 문장을 컴퓨터가 이해할 수 있도록 숫자 형태로 변환하는 텍스트 임베딩 과정을 거쳤다. 본 연구에서는 이 단계에서 OpenAI의 텍스트 임베딩 모델 (text-embedding-3-small)을 활용하였다. (4) 최적 개수를 적용한 문장 클러스터링: 임베딩을 통해 벡터화된 문장들은 의미적으로 유사한 내용끼리 묶기 위한 클러스터링 작업에 활용되었다. 클러스터링에는 K-means 알고리즘을 적용하였으며, 클러스터 수를 2개부터 100개까지 변화시켜가며 실루엣 점수 (silhouette score)를 기준으로 최적의 클러스터 수를 탐색하였다. 그 결과, 7개의 클러스터가 가장 적절한 수로 판단되었다. (5) 토픽 추출: 마지막으로, 클러스터가 다루는 주제를 해석하는 토픽 도출 과정을 수행하였다.
본 연구는 국내 대표 애슬레저 브랜드 ‘A’의 베스트 상품에서 10,000개의 소비자 댓글을 수집하여 분석에 활용하였다. 일반적인 패션 제품이 주로 심미적 요소에 초점이 맞춰져 있는 반면, 애슬레저 제품은 운동에 필요한 기능적 측면과 미적 측면이 모두 중요하게 작용하기 때문에, 소비자들이 다양한 관점에서 의견을 개진할 가능성이 높다고 판단하여 애슬레저 브랜드를 데이터 수집 대상으로 선정하였다. 데이터는 2024년 10월에 Python을 활용하여 수집하였다.
수집된 데이터를 클러스터링 분석하기 위해서는 텍스트를 문장 단위로 분리하는 전처리 과정이 필요하다. 특히 소비자 댓글의 경우 하나의 문단 안에 여러 문장이 길고 복잡하게 혼재되어 있는 경우가 많아, 이를 자동으로 문장 단위로 분리해주는 문장 분리기가 필수적이다. 자동 문장 분리기는 긴 문단을 독립적인 문장 단위로 구분하는 도구를 의미하며, 대표적으로 Kiwi, KSS, Kkma 등이 널리 사용된다.
본 연구에서는 이러한 문장 분리기의 성능을 사전에 평가하여, 본 연구의 데이터에 가장 적합한 도구를 선정하였다. 이를 위해 먼저 문장 분리기 성능 평가를 위한 테스트 데이터셋으로, 57자 이상으로 구성된 소비자 댓글 100개를 무작위로 추출하였다. 이후 사람이 직접 문장을 구분한 결과를 네임드 엔터티 태깅 도구 (ner tagging tool)를 활용하여 정답 데이터로 구축하였다. 평가에는 Kiwi (https://github.com/bab2min/kiwipiepy), KSS (https://github.com/hyunwoongko/kss), Kkma (http://kkma.snu.ac.kr/)를 적용하였으며, 두 가지 평가 지표를 사용하였다. 첫째, Dice similarity는 두 집합 간의 유사성을 0에서 1 사이의 값으로 측정하는 지표로, 값이 1에 가까울수록 두 샘플 (분리된 문장 집합)이 완전히 일치함을 의미한다. 이 지표는 자연어 처리에서 텍스트 유사도 측정에 주로 활용된다. 둘째, 문장 구분 개수 비교는 정답 데이터가 구분한 문장 수와 각 문장 분리기가 구분한 문장 수의 차이의 절대값을 계산하여 평가하였다. 차이값이 0에 가까울수록 정답과 동일한 문장 수를 구분했음을 의미하며, 값이 커질수록 분할 정확도가 떨어지는 것으로 해석할 수 있다. 테스트 결과, Dice similarity가 가장 높고 문장 구분 개수 차이가 가장 작게 나타난 KSS가 본 연구의 데이터에 가장 적합한 문장 분리기로 판단되었으며, 최종적으로 본 연구는 Python에서 문장 분리 작업에 KSS를 활용하였다 <Table 1>.
| Dice similarity | Sentence count difference | |
|---|---|---|
| Kiwi | 0.9655 | 50 |
| KSS | 0.9795 | 40 |
| Kkma | 0.9655 | 57 |
문장 분리를 마친 후, Python 작업 환경에서 문장별 임베딩 과정을 시행하였다. 텍스트 임베딩은 텍스트를 특정 규칙에 수렴하는 실수 벡터 형태로 표현하는 과정으로, 주로 텍스트 검색뿐만 아니라 클러스터링, 추천 시스템, 이상 감지, 다양성 측정, 분류 등 광범위한 분석에 활용된다. 특히 벡터 공간 상에서 텍스트 간 의미론적 유사성을 보존하므로, 주제 분류나 의미적 군집화를 수행할 때 필수적인 전처리 단계로 사용된다. 이러한 특성 덕분에 마케팅 분야에서도 고객 리뷰나 댓글 데이터를 토픽별로 분류하기 위한 클러스터링의 입력값으로 폭넓게 활용된다. OpenAI는 현재 모델 크기에 따라 ‘text-embedding-e-small’, ‘text-embedding-3-large’, ‘text-embedding-ada-002’등을 제공하고 있으며, 각 모델은 사용 비용과 정확도에서 차이를 보인다. 본 연구에서는 최신 모델 중 하나인 text-embedding-3-small을 사용하였다. 이 모델은 Transformer 기반의 대규모 사전학습 언어모델로서, 상대적으로 긴 텍스트 (8191 토큰 이하)를 1,536차원의 고정 길이 벡터로 변환할 수 있으며, 의미적 표현력이 높아 가장 널리 사용되는 모델 중 하나이기 때문이다.
데이터 임베딩을 마친 후, 본 연구는 클러스터링, 즉 주제별 군집화 과정을 수행하였다. 이를 위해 먼저 클러스터의 최적 개수를 도출하는 과정이 필요하였다. 본 연구에서는 실루엣 점수를 활용하여 최적의 클러스터 개수를 탐색하였다. 실루엣 점수는 클러스터 내 응집도와 클러스터 간 분리도를 동시에 고려하는 지표로, 모든 샘플의 평균 실루엣 계수를 계산하여 산출된다. 이 값은 -1에서 1 사이의 범위를 가지며, 1에 가까울수록 동일 클러스터 내 데이터들은 서로 가깝고, 다른 클러스터 간 데이터들은 충분히 멀리 떨어져 있어 군집화가 잘 이루어진 것으로 간주된다. 구체적으로, 클러스터 수가 적을 경우 동일 클러스터 내 데이터 간 거리가 작아져 응집도가 높아지며, 동시에 이웃 클러스터와의 평균 거리가 상대적으로 커져 분리도 또한 증가하게 된다. 하지만 클러스터 수가 지나치게 많아지면, 데이터가 과도하게 세분화되어 동일 클러스터 내 거리는 지나치게 작아지는 반면, 클러스터 간 평균 거리는 상대적으로 덜 증가하게 되어, 실루엣 점수는 단순히 클러스터 수 증가에 비례해 상승하는 경향을 보일 수 있다. 이 경우 실루엣 점수가 높더라도 실질적인 주제 구분력이 약화되는 문제가 발생한다.
본 연구에서는 이러한 특성을 고려하여, Python 작업 환경에서 K-means 알고리즘과 실루엣 점수 계산을 통해 클러스터 수를 2개에서 70개까지 단계적으로 증가시키며 실루엣 점수를 산출하였다. 그 결과, 클러스터 수가 약 25개를 넘어선 이후부터는 실루엣 점수가 완만하게 상승하는 패턴을 보였으며, 25개 이하 구간에서 가장 높은 실루엣 점수를 보인 7개를 본 연구의 최적 클러스터 개수로 최종 선정하였다 <Fig. 2>. 이후, 최적 개수를 적용하여 k-means 클러스터링을 수행하였다.
최적의 클러스터 개수를 적용한 결과, 총 7개의 클러스터가 도출되었으며 각 클러스터별 문장 수는 다음과 같다: (1) 2,550개, (2) 3,087개, (3) 2,270개, (4) 3,927개, (5) 1,769개, (6) 6,050개, (7) 4,301개로 구성되었다. 이후 각 클러스터 내에서 중심에 가장 가까운 문장의 벡터를 기준으로 코사인 유사도 (cosine similarity)를 산출하여, 중앙에 위치한 문장과 가장 유사도가 높은 문장들을 추출하였다 <Table 2>. 이를 통해 각 클러스터의 주제를 해석한 결과, 7개의 토픽은 다음과 같이 분류됨을 확인할 수 있었다: (1) 제품에 대한 감사, (2) 브랜드에 대한 소감, (3) 제품 사이즈, (4) 제품 색상, (5) 운동 편의성, (6) 착용감, (7) 제품에 대한 다양한 평가의 의견.
| Topic (Cluster) |
Consumer comments |
|---|---|
| (1) Appreciation for the product | “Absolutely love this product—so grateful I found it”, “Feels super comfy, couldn’t be happier”, “Fits perfectly and I really appreciate how well it’s made”, “Love how comfortable it is — thank you!”, “So happy with this purchase”, “Thrilled with the quality and price”, “It holds everything nicely, I’m truly impressed”, “Grateful for such a perfect fit”, “Just love it — can’t say enough good things” |
| (2) Impressions of the brand | “Highly recommend A leggings”, “When it comes to leggings, it’s always A”, “Honestly, A leggings never disappoint”, “Tried A leggings for the first time — really impressed”, “Now I want to try more leggings from A”, “Pretty much decided to stick with A for leggings”, “I’ll probably only buy A from now on”, “I only trust A when it comes to leggings”, “This was my first A purchase, and it truly lives up to the hype — fits and feels better than other brands”, “Tried pilates wearing A leggings and socks — next level”, “I really trust A — always happy to wear them”, “Bought A again after a while, and the fabric feels even better now” |
| (3) Product size | “I usually wear a size 6 but tried a 4 — fits well and super comfy”, “Love that it runs true to size”, “The size is spot on and feels great”, “Sized up by one and it fits comfortably”, “Honestly think I could even go down a size”, “I’m 160cm, 44kg and the size 2 is really comfy”, “Matches my usual size perfectly”, “Went up two sizes and it’s super comfy”, “Ordered my usual size and it’s a perfect fit”, “Same size I always get, and the quality of these leggings is fantastic”, “Next time I might get an 8 for an even comfier fit”, “Normally wear a 6, but didn’t want it too tight for working out, so I got an 8 (XL) for a relaxed fit”, “Love the size, length, and feel — totally my style.” |
| (4) Product color | “The color is absolutely gorgeous”, “Such a pretty color, love it!”, “Bright and beautiful shade”, “Love the color — it’s pretty”, “Feels great on and the color is lovely”, “The color is even prettier than in the photos”, “Exactly the shade I was hoping for, looks beautiful”, “Always got black before but went for something bolder this time — such a nice change”, “Color is beautiful, lightweight, and so nice”, “The color is elegant and really pretty”, “Honestly, the color looks even better in person”, “Totally in love with the color” |
| (5) Ease of use for exercise | “Feels like it’ll be great for workouts”, “Perfect for exercising”, “So comfy, I can easily move around when I work out”, “Love wearing these — super comfortable for my workouts”, “Bought these specifically for working out and they’re amazing”, “Highly recommend — holds everything well and super comfy for exercise”, “Honestly, so comfortable I wear them every time I hit the gym”, “Keeps everything smooth and even protects my knees during workouts”, “Got them in multiple colors just to wear for the gym”, “The stretchy, elastic feel is great for active movement”, “Can move freely with no tightness — breathing feels easy, love that”, “Honestly so comfy I’d wear them even if I’m not working out” |
| (6) Product comfort | “The thickness and length are just right — fits perfectly”, “The material is amazing, holds everything well, and super easy to put on and take off”, “Fits comfortably and you can really feel how high-quality the fabric is”, “Not too tight, great stretch, and feels cooler than long pants — super comfy”, “The feel when wearing it is just excellent”, “The material is so good and comfy, I might just stick with A from now on”, “The fit is flattering and the fabric is soft and lovely”, “Super stretchy and fits comfortably”, “Love the texture — doesn’t show underwear lines, easy to wear”, “Above all, love how it feels against my skin”, “So comfy, I’ll definitely keep wearing it”, “Soft to the touch and simple design, which I really like”, “The fabric is smooth and I’m so happy with it”, “Really like how it firmly shapes my lines without feeling too tight” |
| (7) Various evaluations of the product | “It’s just so pretty, haha”, “Took a pic from above, makes my thighs look extra thick, haha”, “Was told it’s not a defect so couldn’t exchange — once it rolls down, it keeps slipping”, “Came back because I think I need to buy more”, “Feels like a really good purchase”, “I’m happy with it”, “Got it on sale for a great price, but the light color is a bit see-through”, “Such a fair price, really glad I bought it”, “Doesn’t hold as firmly as I expected, but still really comfy”, “A bit uncomfortable for yoga, to be honest” |
첫째, ‘제품에 대한 감사’ 토픽은 소비자들이 제품 사용 후 긍정적인 경험을 통해 느낀 만족감을, 단순한 평가를 넘어 감사의 언어로 표현하고 있다는 점에서 주목할 만하다. 소비자들은 “좋은 제품 감사합니다”, “너무 좋아요”, “잘 맞아서 고마워요” 등의 직접적 감사를 담은 표현을 사용하며, 제품 구매 및 사용 과정에서 기대 이상의 가치를 경험했음을 드러냈다. 이러한 감사 표현은 제품의 기능적, 정서적 혜택이 소비자의 기대치를 넘었을 때 나타나는 반응으로, 해당 브랜드의 제품이 소비자의 기대치를 충족하였음을 알 수 있다.
둘째, ‘브랜드에 대한 소감’ 토픽은 브랜드에 대한 신뢰와 선호를 중심으로 형성된 것으로 나타났다. 예를 들어 “A 브랜드는 항상 만족스럽다”, “A 브랜드의 다른 제품도 사고 싶다” 등의 표현은 브랜드를 직접적으로 언급하며, 브랜드 자체에 대한 긍정적 태도와 만족도를 분명히 보여주었다. 특히 이는 ‘제품에 대한 감사’ 토픽과 달리 브랜드명을 명시함으로써 제품을 넘어 브랜드 차원의 애착과 신뢰를 표현한 점이 두드러졌다. 더 나아가 “A 진짜 믿고 입어요”, “명성에 걸맞게 타사 레깅스보다 확실히 좋아요”, “타사 브랜드보다 A 브랜드 제품이 거슬림 없이 좋아요”와 같은 문장들은 소비자가 특정 브랜드를 지속적으로 선호하며, 강한 팬심과 브랜드 충성도를 보유하고 있음을 잘 보여준다.
셋째, ‘제품 사이즈’ 토픽에서는 “6 사이즈 입다가 4 사이즈 구매해봤는데 잘 맞고 편합니다”와 같은 문장을 통해 제품의 사이즈가 잘 맞는지, 정사이즈인지, 혹은 작거나 큰지에 대한 구체적인 피드백이 주로 나타났다. 이러한 반응들은 소비자들이 자신의 체형과 해당 제품 사이즈 간의 적합성을 어떻게 인식하고 있는지를 구체적으로 보여주며, 브랜드가 향후 사이즈 표기나 가이드라인을 개선하는 데 실질적인 인사이트를 제공한다.
넷째, ‘제품 색상’ 토픽은 색상에 대한 만족도(e.g., “색은 너무 마음에 듭니다”), 예쁜 색감(e.g., “색상이 넘 이쁨”), 사진과 실물 간 차이(e.g., “색깔이 실제가 더 예뻐요”)에 관한 소비자들의 반응이 중심을 이루었다. 이는 색상이 소비자들의 구매 결정에 있어 중요한 역할을 하고 있으며, 애슬레저 제품 구매 시 단순히 기능성과 운동 편의성만이 아니라 심미적 만족 역시 핵심 고려 요소임을 시사한다.
다섯째, ‘운동 편의성’ 토픽은 제품이 운동 시 얼마나 편리하고 기능적인지를 언급한 내용들로 구성되었다. 애슬레저 제품의 특성상 실제 운동 상황에서 자주 착용되기 때문에, 운동할 때의 착용감과 활동성을 평가하는 소비자 반응이 별도의 토픽으로 분류될 만큼 중요한 비중을 차지했다. 예를 들어 “운동할 때 잘 잡아준다”, “자유롭게 움직일 수 있다”와 같은 긍정적인 평가뿐만 아니라, “그냥 두기엔 운동하거나 입기엔 걸릴 것 같아요”처럼 활동성에 대한 부정적 평가도 함께 나타나, 소비자들이 운동 중 편의성과 기능성을 구매 의사결정의 핵심 요소로 고려하고 있음을 보여준다.
여섯째, ‘착용감’ 토픽에서는 제품을 착용했을 때의 느낌, 촉감, 신축성, 재질 등에 대한 소비자들의 평가가 주로 나타났다. “긴바지보다 감기는 느낌이 없어 시원하게 느껴집니다”와 같이 편안함이나 밀착감을 강조하는 표현이 자주 등장했으며, 특히 착용감과 관련해 제품의 소재에 대한 직접적인 평가도 많이 확인되었다. 예를 들어 “재질 너무 좋고 잘 잡아주고 입고 벗기에도 너무 편해요”, “편하게 잘 맞고 겉에 만져보면 재질이 진짜 좋은 느낌이 납니다” 등은 소재가 주는 촉감과 품질이 소비자들의 구매 후 평가에 중요한 기준임을 시사한다.
마지막으로, ‘제품에 대한 다양한 평가’ 토픽은 특정 카테고리에 속하지 않는 소비자들의 자유로운 의견들로 구성되었으며, 전반적인 만족도, 개선 요구, 제품에 대한 종합적 평가 등을 포괄하고 있었다. 특히 이 토픽에는 제품 가격과 관련된 평가뿐 아니라, 구매 과정에서 경험한 부정적인 피드백도 다수 포함되었다. 예를 들어 “불량이 아니라 교환 안된대서 입긴 하는데, 한 번 말려 내려간 옷은 계속 내려갑니다.”, “생각했던 것만큼 잘 잡아주지는 않지만” 등과 같은 문장은 소비자들이 제품 사용 과정에서 느낀 불만이나 기대에 못 미친 점들을 솔직하게 드러낸 사례다. 이는 대체로 긍정적인 평가가 주를 이루었던 다른 토픽들과 달리, 소비자들이 제품의 장단점을 보다 종합적으로 평가하며 브랜드와 제품에 대한 인식을 형성해 나간다는 점을 보여준다.
본 연구는 소비자들이 패션 제품을 구매한 후 자발적으로 남긴 댓글 데이터를 기반으로, 대형 언어 모델을 활용해 텍스트를 분석함으로써 소비자의 제품 인식 및 반응을 보다 구조적으로 파악하고자 하였다. 이를 위해 OpenAI에서 제공하는 text-embedding-3-small모델을 사용하여 국내 애슬레저 브랜드 “A”사의 소비자 댓글을 수집·분석하였으며, 그 결과 총 7개의 유의미한 토픽을 도출할 수 있었다. 본 연구는 단순히 키워드 빈도를 확인하는 데 그치지 않고, 문장 단위로 토픽을 분류하고 각 토픽에서 대표 문장들을 추출하여 소비자 반응을 세부적으로 탐색하였다.
‘제품에 대한 감사’ 토픽에서는 소비자들이 제품에 대해 단순히 만족감을 표하는 것을 넘어, 직접적인 감사의 언어를 사용함으로써 제품이 자신들의 기대를 초과하는 가치를 제공했음을 드러냈다. 서비스 상황에서 소비자의 감사 표현이 특정 기업이나 브랜드에 대한 충성도로 이어진다는 선행 연구 (Bock et al., 2016)를 고려할 때, 이러한 소비자 반응은 해당 브랜드에 매우 긍정적인 영향을 미칠 뿐 아니라, 장기적으로 브랜드 충성도 형성에 기여할 가능성을 시사한다. ‘브랜드에 대한 소감’ 토픽에서는 소비자들이 브랜드를 직접적으로 언급하며 신뢰와 선호, 충성심을 나타냈다. 이는 단순한 제품 만족을 넘어 브랜드 자체에 대한 긍정적 태도와 애착을 보여주며, 장기적으로 해당 브랜드에 대한 팬덤 형성이 이루어질 가능성을 시사한다. 최근에는 다양한 브랜드가 경쟁적으로 등장하면서, 소비자가 특정 브랜드에 강한 애착을 가지고 자발적으로 지지하는 팬덤을 형성하는 것이 브랜드의 지속 가능성과 장기적 운영에 있어 중요한 전략적 요소로 부각되고 있다 (Choi et al., 2024). 이러한 맥락에서 본 연구에서 확인된 소비자들의 브랜드 지향적 반응은, 해당 브랜드가 경쟁 시장에서 안정적인 고객 기반을 구축하고 유지하는 데 긍정적인 토대를 마련할 수 있음을 시사한다.
나아가, ‘제품 사이즈’, ‘제품 색상’, ‘운동 편의성’, ‘착용감’ 토픽은 제품에 대한 소비자들의 구체적이고 세부적인 피드백과 밀접하게 관련되어 있었다. 대부분 긍정적인 리뷰가 주를 이루었지만, 동시에 나타난 부정적인 의견 또한 주목할 필요가 있으며, 이는 향후 브랜드가 새로운 제품을 개발하거나 다양한 체형과 취향에 맞춘 제품 라인을 확장하는 데 유용한 인사이트로 활용될 수 있다. 특히 ‘제품 색상’ 토픽에서는 색상에 대한 만족도, 색감의 예쁨, 그리고 사진과 실물 간의 색상 차이에 대한 소비자 의견이 두드러지게 나타났는데, 이는 애슬레저 제품 구매에서 기능성과 운동 편의성에 더해 심미적 만족 또한 핵심적인 구매 결정 요소임을 보여준다. 종합적으로 볼 때, 애슬레저 제품에서 사이즈, 색상, 운동 시 편의성, 착용감은 소비자들이 제품을 평가할 때 주요한 기준으로 작용하고 있음을 확인할 수 있었다. 특히 이러한 결과는 애슬레저 패션의 추구 혜택이 단순히 실용적 측면에 국한되지 않고, 심미적 혜택까지도 포함된다는 점을 강조한 선행 연구들와도 맥락을 같이한다 (Zhang & Oh, 2023).
마지막으로, ‘제품에 대한 다양한 평가’ 토픽에서는 특정 주제에 한정되지 않는 전반적인 만족도, 가격 평가, 개선 요구 등이 자유롭게 나타났으며, 긍정적 평가와 더불어 구매 경험에서 비롯된 부정적인 의견들도 함께 확인되었다. 이는 소비자들이 제품의 장단점을 종합적으로 고려해 브랜드를 평가하고 있다는 점을 보여준다. 온라인 리뷰의 특성상 소비자들은 대체로 긍정적인 평가를 더 많이 남기는 경향이 있음에도 불구하고 (Park et al., 2018), 이처럼 나타난 부정적 피드백은 브랜드 운영 및 제품 개선 전략 수립 시 더욱 주의 깊게 검토할 필요가 있음을 시사한다.
본 연구는 다음과 같은 학문적, 실무적 시사점을 가진다. 첫째, 본 연구는 기존 패션 분야 텍스트 마이닝 분석에서 주로 사용되던 LDA, TF-IDF 등의 통계 기반 접근법이 아닌, 대형 언어 모델을 활용하여 소비자 댓글 데이터를 분석하였다. 이를 통해 대형 언어 모델이 단순히 정량적 리뷰 분석 도구를 넘어, 소비자의 정성적 의견을 보다 체계적이고 구조화된 방식으로 해석할 수 있는 강력한 방법론적 도구임을 실증적으로 확인하였다. 특히 본 연구는 패션 제품 구매 맥락에서 소비자들이 느끼는 미묘한 기능적 만족, 착용감, 색상 및 스타일에 대한 심리적 반응까지 구체적으로 도출함으로써, 감성적·주관적 평가가 중요한 패션 소비자 행동 연구에서도 대형 언어 모델 기반 임베딩이 충분히 효과적으로 활용될 수 있음을 보여주었다. 일반적인 텍스트마이닝 중 TF-IDF 분석은 전체 문서 집합에서 문장을 단어 단위로 토큰화하여 명사의 빈도를 기반으로 단어의 중요도를 수치화 하는 방법이다. 본 연구는 이와같이 단순히 키워드를 추출하는 데 그치지 않고, 7개의 주요 토픽을 도출한 뒤 각 토픽의 대표 문장을 추출함으로써 연구자의 주관이 과도하게 개입되지 않는 객관적 해석 가능성을 높였다는 점에서 방법론적 의의가 크다. 단어가 아닌 주요 문장을 추출해주기 때문에 정확한 맥락을 파악할 수 있어 비교적 정확한 해석이 가능하기 때문이다.
둘째, 본 연구는 대형 언어 모델이 단순히 텍스트를 생성하는 기능에 국한되지 않고, 소비자 인사이트를 도출하고 이를 바탕으로 마케팅 및 제품 전략을 설계하는 실질적 분석 도구로도 활용될 수 있음을 보여주었다는 점에서 의의가 크다. 특히 본 연구에서 사용한 OpenAI의 text-embedding-3-small모델은 동일한 입력에 대해 항상 일관된 벡터를 반환하기 때문에 (Stack Overflow, 2023), 분석 과정에서 투명성과 재현 가능성을 보장할 수 있다는 강점을 지니며, 동일한 방법론을 적용해 후속 연구에서도 쉽게 확장·비교 연구를 수행할 수 있는 기반을 제공한다. 나아가 이러한 분석 방법은 향후 패션 산업뿐만 아니라 소비자 경험이 중요한 다양한 분야에서 정성적 소비자 데이터를 보다 체계적으로 해석하고, 데이터 기반 의사결정을 한층 고도화하는 데 기여할 수 있을 것으로 기대된다.
셋째, 본 연구를 통해 애슬레저 제품을 구매하는 소비자들이 중요하게 고려하는 의복 혜택 요소들—사이즈, 운동 편의성, 착용감, 심미성—을 명확히 확인할 수 있었다. 이러한 결과는 향후 브랜드가 새로운 제품을 기획하거나 마케팅 메시지를 설계할 때 소비자 관점에서 핵심적으로 강조해야 할 차별화 포인트를 제공한다. 나아가 소비자 댓글에 나타난 세부적인 긍, 부정 피드백은 제품 개선 및 고객 경험 관리 전략 수립에 있어서도 유의미한 기초 자료로 활용될 수 있을 것이다. 특히, 본 연구에서 사용한 대형 언어 모델 기반 텍스트마이닝 분석 방법은 다른 카테고리 또는 브랜드 유형의 소비자 댓글에도 적용 가능하며, 이를 통해 기능성, 디자인, 가격 등 브랜드 속성별 중요도나 소비자 감성의 차이를 정량적으로 파악할 수 있다. 이러한 비교 분석은 애슬레저 브랜드의 경쟁 우위를 명확히 규명하는 데 기여할 수 있으며, 소비자 의견이 소비자 행동에 미치는 영향력이 점차 확대되고 있는 현 상황을 고려할 때, 다양한 브랜드 및 제품군과의 비교 결과는 애슬레저 브랜드의 디지털 마케팅 전략, 제품 설명, 후기 관리 등 실무 전략 수립에 유의미한 시사점을 제공할 수 있을 것이다.
본 연구는 대형 언어 모델을 적용하여 패션 브랜드의 실제 소비자 댓글을 분석함으로써 방법론적 측면과 결과 측면에서 모두 유의미한 시사점을 도출하였다. 그러나 동시에 몇 가지 한계점을 지니고 있으며, 이에 따라 후속 연구를 통해 보다 확장될 수 있는 가능성을 제시한다. 첫째, 본 연구에서 사용된 데이터는 특정 브랜드에 국한된 소비자 리뷰 데이터로, 다양한 패션 브랜드의 댓글을 폭넓게 수집하여 비교·분석한다면 애슬레저 패션이 다른 패션 스타일과 차별화되는 속성들을 보다 명확히 도출할 수 있을 것이다. 이러한 방법론은 애슬레저 외에 다른 패션 스타일을 추구하는 브랜드에도 동일하게 적용될 수 있으며, 서로 다른 스타일이나 타깃을 보유한 브랜드 간 비교 연구를 수행할 경우 더욱 풍부하고 의미 있는 결과를 도출할 수 있을 것으로 기대된다. 둘째, 자연어를 분석할 수 있는 대형 언어 모델은 본 연구에서 사용한 text-embedding-3-small이외에도 다양한 형태로 존재한다. 추후 연구에서는 동일한 데이터를 기반으로 다른 언어 모델들을 적용해 분석을 수행함으로써, 모델 간 성능 및 해석 결과를 비교·평가하는 연구를 진행할 수 있을 것이다.
이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2022R1G1A1010675)
| 1. | An, E. (2022). A study on athleisure fashion tendency and consumer behavior according to Covid 19 pandemic. Journal of Korean Society of Design Culture, 28(1), 239-249.![]() |
| 2. | Bertola, P. & Teunissen, J. (2018). Fashion 4.0. Innovating fashion industry through digital transformation. Research Journal of Textile and Apparel, 22(4), 352-369![]() |
| 3. | Blasi, S., Brigato, L., & Sedita, S. R. (2020). Eco-friendliness and fashion perceptual attributes of fashion brands: An analysis of consumers’ perceptions based on twitter data mining. Journal of Cleaner Production, 244, 118701.![]() |
| 4. | Bock, D. E., Folse, J. A. G., & Black, W. C. (2016). Gratitude in service encounters: implications for building loyalty. Journal of Services Marketing, 30(3), 341-358.![]() |
| 5. | Choi, S. A. (2020). Women in 20's~40's wearing fitted athleisure wear in Korea. Journal of Communication Design, 71, 303-318.![]() |
| 6. | Choi, W., Jang, S., Kim, H. Y., Lee, Y., Lee, S. G., Lee, H., & Park, S. (2023). Developing an AI-based automated fashion design system: reflecting the work process of fashion designers. Fashion and Textiles, 10(1), 39.![]() |
| 7. | Choi, W., Lee, Y., & Jang, S. (2024). Diffusion of fashion trend information: a study on fashion image mining from various sources. Fashion and Textiles, 11(1), 30.![]() |
| 8. | Choi, Y.-H. & Lee, K.-H. (2020). Changes in consumer perception of fashion products in a pandemic - Effects of COVID-19 spead -. The Research Journal of the Costume Culture, 28(3).![]() |
| 9. | Ghatora, P. S., Hosseini, S. E., Pervez, S., Iqbal, M. J., & Shaukat, N. (2024). Sentiment Analysis of Product Reviews Using Machine Learning and Pre-Trained LLM. Big Data and Cognitive Computing, 8(12), 199.![]() |
| 10. | Jelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y., & Zhao, L. (2019). Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey. Multimedia tools and applications, 78, 15169-15211.![]() |
| 11. | Kawaf, F., & Istanbulluoglu, D. (2019). Online fashion shopping paradox: The role of customer reviews and facebook marketing. Journal of Retailing and Consumer Services, 48, 144-153.![]() |
| 12. | Ki, C. W. C., Lee, H. A., Lam, M., Aw, E. C. X., & Wong, C. W. (2025). How is NFT fashion distinct from digital fashion? insights from mixed-methods research combining social listening and consumer surveys. Journal of Retailing and Consumer Services, 87, 104379.![]() |
| 13. | Kim, H. J., Song, Ki. E., & Hwang, S. J. (2022). Text analysis of consumer comments on YouTube luxury product reviews. Journal of the Korean Society of Costume, 72(1), 17-28.![]() |
| 14. | Kim, K.-H. & Byun, H.-W. (2020). The Analysis of fashion trend cycle using Big Data. Journal of the Korea Convergence Society, 11(12), 113-123.![]() |
| 15. | Krugmann, J. O. & Hartmann, J. (2024). Sentiment analysis in the age of generative AI. Customer Needs and Solutions, 11(1), 3.![]() |
| 16. | Kumar, A. (2025, March 29). Advancing natural language understanding: The transformative power of large language models. Analytics Insight. Retrieved July 6, 2025, from https://www.analyticsinsight.net/llm/advancing-natural-language-understanding-the-transformative-power-of-large-language-models |
| 17. | Lee, J. E., Choi, S. L., & Do, W. H. (2017). A study on the wearing condition of athleisure wear of Korean women in their 20's. Fashion & Textile Research Journal, 19(5), 579-588.![]() |
| 18. | Lee, J. K., & Lim, H. (2021). A study on purchasing and wearing status of korean women's athleisure wear products - Focusing on women in their 20s to 50s. Fashion & Textile Research Journal, 23(3), 370-379.![]() |
| 19. | Mohammed, S. H. & Al-augby, S. (2020). Lsa & lda topic modeling classification: Comparison study on e-books. Indonesian Journal of Electrical Engineering and Computer Science, 19(1), 353-362.![]() |
| 20. | Moon, S. & Kamakura, W. A. (2017). A picture is worth a thousand words: Translating product reviews into a product positioning map. International Journal of Research in Marketing, 34(1), 265–85.![]() |
| 21. | Odden, T. O. B., Tyseng, H., Mjaaland, J. T., Kreutzer, M. F., & Malthe-Sørenssen, A. (2024). Using text embeddings for deductive qualitative research at scale in physics education. Physical Review Physics Education Research, 20(2), 020151.![]() |
| 22. | Park, H. & Kim, Y. K. (2014). The role of social network websites in the consumer-brand relationship. Journal of Retailing and Consumer Services, 21(4), 460-467.![]() |
| 23. | Park, K., Cha, M., & Rhim, E. (2018, April 23). Positivity bias in customer satisfaction ratings. Companion Proceedings of the The Web Conference 2018 (pp. 631-638).![]() |
| 24. | Rho, E. K. (2023). A study on the purchase status of athleisure wear and consumers' dissatisfaction with online shopping post-COVID-19. Fashion & Textile Research Journal, 25(2), 165-174.![]() |
| 25. | Rockett, E., Fenwick, M., & Jurcys, P. (2025). Fashion 4.0 and emerging designers: leveraging data and AI to drive creativity, innovation and compliance in global supply chain regulation. Journal of Intellectual Property Law and Practice, 20(2), 111-121.![]() |
| 26. | Seon, J.-H., Jung, H.-J., & Lee, J.-Y. (2021). Changes in street fashion networks using social big data- time-series approach to public attention and cluster attributes. Journal of the Korean Society of Costume, 71(3), 124-142.![]() |
| 27. | Stack Overflow. (2023). OpenAI embedding: The same text but returns different vectors?. Retrieved July 6, 2025, from https://stackoverflow.com/questions/76423446/openai-embedding-the-same-text-but-return-the-different-vectors |
| 28. | Sun, H., Shen, Y., Ton, J. F., & van der Schaar, M. (2025). Reusing embeddings: reproducible reward model research in large language model alignment without GPUs. arXiv preprint arXiv:2502.04357.![]() |
| 29. | Voskergian, D., Jayousi, R., & Yousef, M. (2024). Topic selection for text classification using ensemble topic modeling with grouping, scoring, and modeling approach. Scientific Reports, 14(1), 23516.![]() |
| 30. | Zhang, F. & Oh, K. W. (2023). Effect of Chinese consumers’ lifestyle on pursuing benefits and purchase intention for athleisure wear. Journal of the Korea Fashion & Costume Design Association, 25(1), 1-13.![]() |
| 31. | Zubiaga, A. (2024). Natural language processing in the era of large language models. Frontiers in artificial intelligence, 6, 1350306.![]() |