트랜스포머를 활용한 자연어 처리

이 책은 허깅페이스의 엔지니어인 루이스 턴스톨(Lewis Tunstall), 레안드로 폰 베라(Leandro von Werra), 토마스 울프(Thomas Wolf)가 쓴 아마존 베스트 셀러 <Natural Language Processing with Transformers>의 번역서입니다.

허깅페이스의 트랜스포머스 라이브러리는 자연어 처리를 넘어 딥러닝 전영역으로 영향력을 빠르게 미치고 있습니다. 이 책은 트랜스포머 아키텍처와 허깅페이스에서 제공하는 다양한 라이브러리를 배울 수 있는 최상의 도구입니다! 책의 각 장에 대한 간단한 요약 설명은 “트랜스포머를 활용한 자연어 처리” 번역을 마쳤습니다. 글을 참고하세요!

이 페이지에서 책의 에러타와 라이브러리 버전 변경에 따른 변경 사항을 업데이트하겠습니다. 궁금한 점이나 오류가 있다면 페이지 맨 아래 ‘Your Inputs‘에 자유롭게 글을 써 주세요. 또 제 이메일을 통해서 알려 주셔도 되고 구글 그룹스 머신러닝 도서 Q&A에 글을 올려 주셔도 좋습니다.

감사합니다! 🙂


Outputs (aka. errata)

  1. (p53) 아래에서 5번째 줄에 emotions = load_dataset("emotion")emotions = load_datasets("SetFit/emotion")으로 수정합니다.(홍*호 님)
    추가내용: SetFit/emotionlabel 특성은 ClassLabel 객체가 아닙니다. 수동으로 ClassLabel 객체를 만들어 주세요.
    from datasets import ClassLabel
    emotions['train'].features['label'] = ClassLabel(
    num_classes=6,
    names=['sadness', 'joy', 'love', 'anger', 'fear', 'surprise'])
  2. (p125) XLM-RoBERTa 항목 아래 5번째와 6번째 줄에서 ‘XML‘을 ‘XLM‘으로 정정합니다.(주*피 님)
  3. (p194) 페이지에 있는 다음 코드를
    output_temp = model.generate(input_ids, max_length=max_length, do_sample=True,
    temperature=0.5, top_k=0)
    print(tokenizer.decode(output_temp[0]))

    아래와 같이 정정합니다.
    output_topk = model.generate(input_ids, max_length=max_length, do_sample=True,
    top_k=50)
    print(tokenizer.decode(output_topk[0]))

    (이*욱 님)
  4. (p291) compute_loss 메서드의 첫 번째 줄 위에 다음 코드를 추가합니다(관련 PR: https://github.com/nlp-with-transformers/notebooks/pull/64).
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    inputs = inputs.to(device)
  5. (p125) XLM-RoBERTa 항목 아래 5번째 줄에서 ‘TML‘을 ‘TLM‘으로 정정합니다.(이*혁 님)
  6. (p193) 그림 5-3에서 아래쪽 그래프의 y 축 레이블을 ‘개수‘에서 ‘확률‘로 정정합니다.(이*혁 님)
  7. (p414) 위에서 9번째 줄에 for tokenized_input in tokenized_inputs:를 삭제합니다.(이*욱 님)

Your Inputs

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

This site uses Akismet to reduce spam. Learn how your comment data is processed.