퍼실리이터 소개 시 활용할 수 있는 꿀팁_워드 클라우드
페이지 정보
작성자 Nelly 작성일24-05-20 02:47 조회69회 댓글0건관련링크
본문
안녕하세요알상무입니다.오늘은 워드클라우드 비교적 가벼운 주제인 워드클라우드(Word Cloud)에 대해 포스팅 해보도록 하겠습니다.워드 클라우드라는 것은 어떠한 데이터 속에 특정 단어들을 취합해서 그 빈도 수를 보여주고 이를 통해 트랜드 분석을 해보는 것을 의미합니다.저 역시 실무를 하던 때에 한번 사용해본 경험이 있는데요, 외국의 회사들 모임에 CEO 등 매니지먼트들의 인사말을 등록해 놓은 사이트에서 특정 단어를 추출해서 관심도를 보고 영업기회를 체크해본 기억이 나네요..그런데 이게 사실 파이썬이라는 워드클라우드 것이 영문 기반이다 보니 특정 단어를 체크하는 것이 영어는 잘 됩니다만 한글이 문제가 됩니다... 마음 아픈 일이죠..하지만 이러한 한글 문제를 조금씩 조금씩 해결해 나아가고 있는 것으로 보입니다...오늘은 KoNLPy 라는 모듈을 통해 워드클라우드를 한번 만들어 보도록 하겠습니다.자 우선 모듈을 임포트 해야 겠죠?오늘은 임포트 할게 좀 많이 있군요...일단 따지지 말고 모두 임포트 해주세요.그리고 이제 워드프레임을 만들기 위한 단어 모음을 데이터프레임으로 워드클라우드 준비해봅시다.이제 위의 데이터 프레임을 리스트라는 데이터형으로 변경해볼까요?여기서 질문입니다. 왜 처음부터 리스트라는 데이터형으로 만들지 않고 데이터프레임에서 리스트로 변경했을까요?왜냐하면 이 기회를 통해 tolist() 라는 기능을 좀 설명드리려고 합니다.우선 여러분들의 업무 특성상 데이터가 아마도 엑셀로 이루어져 있을 가능성이 많고, 해당 엑셀을 데이터 프레임으로 변경한 뒤 리스트로 변경하는 작업을 수행하게 되실 듯 하여 해당 프로세스를 한번 보여드리려고 이 작업을 수행해봤습니다..그렇다면 리스트는 뭐냐구요?지금은 워드클라우드 튜플과 비슷한 친구라고 생각해주시면 됩니다. 튜플은 뭐냐구요?리스트와 비슷한....리스트와 튜플은 파이썬의 데이터 형입니다. 두 데이터형 모두 여러 개의 값들을 저장할 수 있는데요, 튜플은()를 사용하고 리스트는 [] 를 사용한다고 일단 알아두시면 되겠습니다.자 위의 코딩을 통해 데이터프레임을 리스트로 변경했습니다.위의 화면을 보시면 [......] 이런 식으로 데이터가 출력되죠? 이게 바로 리스트입니다.이제 해당 리스트에서 단어를 읽어와서 새로운 리스트에 저장해봅시다. 이제 본격적인 내용이 시작되는군요.Hannanum이라는 클래스는 워드클라우드 Kaist에서 개발했다라고 하는군요.해당 클래스를 이용해서 텍스트에서 단어를 추출합니다.여기에서는 위에서 만든 Data 라는 리스트의 길이를 r 이라는 변수에 할당한 다음 data의 0번째 인덱스에서 r 만큼 순서대로 텍스트에서 명사를 추출하여 append 함수를 이용해 a 라는 리스트에 넣어주는 코딩입니다.결과물인 a를 출력하면 어떤 모양일까요?이런 모양입니다.리스트에 리스트가 들어간 모양이네요.자꾸 for 문을 사용하게 되네요..다시 한번 리스트를 작성해서 단어의 빈도수를 넣어 봅시다.필요한 명령어는 Counter 입니다.여기에서 워드클라우드 r은 어디에서 나왔냐구요?위의 코딩에서 Data 리스트의 크기를 r 에 설정하셨자나요?자 이제 c 를 출력해보죠.자 여기까지 오셨으면 거의 다 왔습니다.itertools 라는 모듈을 추가적으로 임포트 해줍니다.현재 결과물인 a를 다른 변수에 할당하고 여기에 있는 리스트 요소들을 전부 합쳐서 다시 카운터 하고 이를 tl 이라는 최종 변수에 할당해줍니다.자 tl2와 tl 각각 출력해보실까요?tl=Counter({x : tl2[x] for x in tl2 if len(x) >1}) 이 워드클라우드 구문에서 len(x)가 1이상인 아이들만 tl에 넣었기 때문에 count가 1인 감"이라는 단어는 tl에 나오지 않고 있습니다.이제 마지막으로 워드클라우드를 만들어봅시다.wordcloud 를 임포트 하고 matplot도 결과물은 아래와 같습니다데이터가 얼마 없어 클라우드가 조금 만족스럽지는 않습니다. 하지만 뭔가 의미있는 데이터를 분석해보시면 분명 만족할 만한 결과를 얻어낼 수 있으실겁니다.ERP사에서 한번 상담 내역을 가지고 워드클라우드를 만들어본 경험이 있습니다.한번 해보시면 상당히 의미가 있는 그림을 그려보실 수 워드클라우드 있지만 그래도 여전히 느끼는 점은 이 워드 클라우드를 만들기 위해서는 엄청난 데이터 전처리가 필요하다는 점이죠..정말 무의미한 단어들이 어마어마하게 많이 나옵니다..이러한 무의미한 단어들을 사전에 제거해주시고 워드클라우드를 작성하시면 의외로 멋진 결과를 얻어내실지도 모릅니다. 하지만 이 클라우드가 실행할때 마다 그 모양이 변경됩니다... 물론 워드 들의 크기는 설정된 크기이겠지만 그 위치가 변경된단 말이죠...자 소스를 정리해드립니다.자 오늘 준비한 포스팅은 여기까지 입니다.수고 많으셨습니다.감사합니다.
댓글목록
등록된 댓글이 없습니다.