ETC
그밖에 유익하게 배운것들
191026 빅스비 캡슐 챌린지

빅스비 클라이언트 > 빅스비 서버 [ASR >NLU>capsule] > External Server > 결과 유저에게 보여줌 Q. 네이버 음성 검색, 멜론 음악 검색도 비슷 기능을 사용하는 것일까? 장소나 기관인 경우는, 장소를 찾는것인지 아니면 다른 것을 말하는것인지 찾는것이 중요 ex) 도서관 -> 장소. 도서관에 있는 책 검색 -> 자료
빅스비 작업 모델링 : 진짜 사용자가 원하는 질문/정보가 무엇인지 파악하는 것 비즈니스 로직 : 사용자가 원하는 질문/정보에 맞는 것을 검색하는 것 (외부 API, 자체 DB를 호출하는 작업) UI/UX : 결과를 보여주는 작업(이미지, 텍스트)
+트레이닝 : 캡슐이 잘 동작하도록 처리할 수 이쓴 발화를 생성하고 자연어 트레이닝을 진행
Q. 다른 사람과 빅스비 공유, 같은 것을 공유할 수 있는지.
A. 아직은 없다고 한다.
음식주문 하는 방법에 대한 코드를 짜봤다.(강사님과 같이) training 파트가 있어, 발화문을 익히는 연습을 따로 시켜야하는것이 특이했다. 다른 언어같은 경우 training 파트가 필요하지 않는데, 빅스비는 발화를 가지고 정보를 캐치해야해서 발생한 특이점+강점인 것 같다.
코딩을 할 때 오류가 나는것이 실시간으로 보여지기 때문에, 어떤 점을 고쳐야하는지 쉽게 알 수 있었다. 파일을 생성할 때도 파일 형태를 지정해서 생성할 수 있는데, 해당 포멧으로 생성이 되는것도 간편했다. 다른 코딩보다 간단하게 (아무래도 발화에 초점을 맞추고, 현재 여러 기능이 없다보니) 만들 수 있는것이 장점인 것 같다.
191019 데이터야 놀자 2019

1. 추천 시스템을 활용할 때 euclidean distance, cosine similarity, + 1 을 사용한다고 한다. 가끔 수학이 중요하지 않다고 하는데, 첫 세션부터 그것이 틀림을 가르쳐주었다. 추천 시스템이라 해서 어렵게만 생각했는데, 간단한 수학 규칙을 이용한다는것에서 약간 충격을 았다. 유저들이 좋아했던 recommendation을 ventor화 한 다음에 cosine 시뮬레이터를 해본다. 새 콘텐츠가 도입되었을때는 답이 없다는 이슈가 있다. k-means clustering -서로 유사한 데이터를 그룹으로 묶어 분류하여 군집하는 것 문제점 ) 1. random centroid. (한 벡터안에 밀집되어 있음) 초기 centroid가 특정 공간에 밀집된다면?>>kmeans ++s spherical k means 를 사용해서 해결하고 있다.
또한 유저가 api call을 했을때만 새롭게 생성해야 한다. -python, model 사용말고 Ts로 직접 만들어야 한다. 추천 시스템 검증에 대한 어려움이 있다고 한다. 2. 임베딩이란 단어나 문장을 벡터로 바꾼것 혹은 그 과정
임베딩으로 할 수 있는것 시각화 벡터 연산(유추평가) : ex) 아들-딸+소녀=소년 전이학습 (transfer learning) : 다른 딥러닝 모델의 입력 값
임배딩 퀼리티가 딥러닝 퀼리티를 높이기도 한다. 단어 임베으로 문서 분류하기. 핵심컨셉: 문서에 속한 단어가 유사하면 문서 의미도 비슷하다 단어 벡터의 합 ~~ 단어 벡터의 평균 ~~문서 벡터의 중심 임베딩이 좋으면 자연어 처리 성능을 높일 수 있다임베딩이 어떻게 의미를 가지는가. > 말뭉치의 통계적 패턴 정보가 들어있다.
빈도를 센다
단어가 어떤 순서로 나타나는지 살핀다.> 시퀀스 정보에 의미가 녹아있다.bert
단어가 어떤 단어와 주로 같이 나타나는지 살핀다. (분포)
문장 수준 임베딩최근 elmo, bert등 다양한 문장 수준 임베딩 등장문장 수준 임베딩의 장점은 동음이의어 분간 가능. 다시 말해 문장의 문맥적 의미를 벡터화할 수 있음. ex)배(다의어) 임베딩 활용: 임베딩이 가장 크게 쓰일 수 있는 분야는 전이학습. 자연어 처리 성능을 높일 수 있음 >> 툴(언어) 공부 뿐만 아니라 수학, 통계 공부 확실히 해야겠다!!🔥🔥
191012 파이콘 튜토리얼 리마인드

튜터 : 박조은
파이썬을 이용하여 서울시 자전거 따릉이 홈페이지에서 크롤링 하는 법을 배웠다. 기본 문법만을 배우다, 실제로 이용하는 법을 오프라인에서 배울 수 있는 기회라 신청했다. 4시간 강의 였는데 3시간을 기본 문법을 익히고, 1시간을 크롤링 하는 법을 배웠는데 이미 기본 문법은 익힌 상태여서 앞 시간들은 흥미가 덜했고, 크롤링 하는 방법을 자세히 배우면 좋았을 것 같다 : ( 그래도 크롤링 하는 방법, 각 사이트에서 크롤링 가능 여부(기술적으로 제제할 가능성이 없지만)를 아는 방법등을 배울 수 있었다.
Last updated
Was this helpful?