이철희 Posted May 7 공유하기 Posted May 7 안녕하세요? 핵심키워드추출 API 이용시 분명히 영문으로만 된 문서를 input으로 넣었는데 추출되는 키워드가 한글로 나오는 경우들이 간혹 발생합니다. 프롬프트에 뭘 넣어줘야 하는 것인지 아니면 파라미터에 language 선택 옵션이 이 있는지 궁금합니다. 아래 제가 넣은 프롬프트와 문서내, 그리고, 추출된 키워드입니다. - 프롬프트 """### 지시사항 - 문서에서 핵심 키워드 최대 5개를 추출합니다. - 키워드는 핵심 주제와 상응하는 우선순위로 꼭 json 형식으로 답변합니다. - 각각의 핵심 키워드는 2단어 이하로 조합해서 추출합니다. ### 응답형식 {'keywords':['키워드1', '키워드2', '키워드3', '키워드4', '키워드5']} """ - Input 문서내용 ― Export price index (won basis) increased by 0.4% month-on-month in April 2006. ◦ This was mainly attributable to a rise in prices of industrial goods, including petroleum and chemical products, and basic metals, in response to price rises in international raw materials such as crude oil. ※ Changes in Major Items Figures in parentheses refer to the degree of contribution (%p) Agricultural and fisheries products 1.6(0.02) Shellfish 8.9(0.01), tuna 3.7(0.02), cuttlefish -11.3(-0.01) Industrial products 0.4(0.36) : <rise> Diesel 12.4(0.58), cables 15.1(0.14), naphtha 6.0(0.12), jet fuel 5.7(0.10), kerosene 9.6(0.10), copper wire 8.9(0.09), gasoline 13.8(0.08), zinc ingot 19.4(0.08), bunker C oil 3.1(0.07), gold ingot 3.4(0.07), toluene 8.7(0.04), xylene 3.6(0.04), copper sheet 12.4(0.03) <fall> Monitors -9.3(-0.09), passenger cars, medium -1.1(-0.07), computer parts -2.1(-0.06), wireless telephone sets -5.4(-0.06), Braun tube -3.8(-0.04), coated fabrics -3.8(-0.04), automobile parts -2.1(-0.03), pile fabrics -2.1(-0.03), cold-rolled steel coil -2.0(-0.03) ◦ Year-on-year, export price index fell by 4.0%. Nov 2005 Dec Jan 2006 Feb Mar Apr -7.0% -3.1% -3.6% -4.9% -4.4% -4.0% ― Meanwhile, foreign currency-denominated export prices (contract currency basis), impervious to exchange rate fluctuations, increased by 2.4% month-on-month during April. Ⅱ. Import Price Trends ― Import price index (won basis) increased by 2.5% month-on-month in April 2006. ◦ This was attributable to a rise in import prices of raw materials (3.2%) and consumer goods (0.2%) in response to price rises in international raw materials such as crude oil and nonferrous metal, offsetting a fall in import prices of capital goods (-2.5%) in response to the appreciation of the won against the dollar. ※ Changes in Major Items Figures in parentheses refer to the degree of contribution (%p) Raw materials 3.2(2.73) : <rise> Crude oil 8.5(2.29), copper ore 21.0(0.19), gold ingot 7.4(0.18), copper 14.2(0.17), copper scrap 27.1(0.13), nickel 17.7(0.12), zinc ore 26.0(0.11), zinc ingot 23.9(0.06), naphtha 1.7(0.06), uranium 34.5(0.05), aluminum ingot 5.5(0.05), iron & steel scrap 4.0(0.04), raw sugar 3.2(0.03), stainless steel plate 5.4(0.03) <fall> LPG (propane) -19.2(-0.17), LPG (butane) -20.1(-0.08), integrated circuits -2.1(-0.07), liquefied natural gas -1.6(-0.06), bituminous coal -2.1(-0.05) Capital goods -2.5(-0.23) : Wafer processing equipment -3.7(-0.05), wireless transceivers -6.3(-0.04), pres ses -2.0(-0.02), medical devices -4.0(-0.02) Consumer goods 0.2(0.01) : Gasoline 13.6(0.04), kerosene 3.4(0.01), frozen fish 1.5(0.01), beef -3.8(-0.02) ◦ Year-on-year, import price index rose by 6.1%. Nov 2005 Dec Jan 2006 Feb Mar Apr 5.6% 10.2% 10.2% 8.5% 5.7% 6.1% ― Meanwhile, foreign currency-denominated import pric" "3161c80c5c589b2e5380938d925eba50",1,10064477,"Weekly Economic Bulletin Ministry of Economy and Finance - Financial Services Commission - Bank of Korea MAJOR NEWS AND EVENTS [MOEF] 35TH Meeting of Central Economic Response Headquarters (May 13) DPM Hong presided over the 35th Meeting of the Central Economic Response Headquarters to discuss plans to support the job market until it rebounds to the pre-crisis level. International shipping and regulation free zones were other topics of discussion. More [MOEF] Moody’s Reaffirms Korea’s Sovereign Rating at Aa2 (May 12) Moody’s reaffirmed Korea’s sovereign rating at Aa2 with a stable outlook reflecting the very strong fundamentals that have underpinned its resilient recovery from the pandemic shock. More [MOEF] Current Employment Statistics, April 2021 (May 12) The economically active population marked 28,361,100 in April 2021, and the number of employed persons totaled 27,214,000. More [MOEF] 2nd Vice Minister An to Hold Treasury Bond Market Inspection Meeting (May 11) 2nd Vice Minister An Do-geol presided over a treasury bond market inspection meeting to discuss frameworks to strengthen the KTB market, as well as recent market trends and outlook with the heads of investment institutions and financial market experts. More [FSC] Financial Development Review Committee Holds 1st Special Committee Meeting on Young Adults (May 13) The FSC announced that the financial development review committee launched an eighteen-member special committee on young adults made up of members in the age of twenties and thirties representing diverse areas of professions on May 13. More [FSC] Enhanced Autonomy and Accountability for Financial Investment Businesses on Chinese Wall Policy (May 11) The government approved a revision bill to the Enforcement Decree of the Financial Investment Services and Capital Markets Act during a cabinet meeting held on May 11, granting more autonomy to financial investment businesses with respect to their internal management of Chinese wall policy while boosting accountability through strict penalty rules. More [FSC] Corporate Restructuring Fund Worth KRW1 Trillion to Be Created This Year (May 10) The FSC announced its plan to set up a third round of corporate restructuring fund in the amount of about KRW1 trillion by the end of this year to continue to promote market-oriented corporate restructuring and be prepared for growing demand amid the pandemic. More [FSC] Enhanced Investor Protection Measures to Be Applied on Highly Complex Investment Products (May 10) The FSC announced that financial institutions will be required to record the sales process when selling ‘highly complex investment products’ and making sales to elderly investors starting from May 10. More [BOK] Monetary and Liquidity Aggregates, March 2021 (May 13) Broad Money (M2, seasonally adjusted, period-average) increased by 1.2%." - 추출된 키워드 : 수출 가격, 수입 가격, 원자재, 산업 제품, 소비재 그럼.. 답변 부탁드립니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자 Posted May 7 공유하기 Posted May 7 @이철희님, 공유주셔서 감사합니다. 언어를 설정하는 옵션은 없으나, 이러한 문제는 의외로 간단하게 해결할 수 있습니다. 전달해주신 시스템 프롬프트로는 아래와 같이 한국어 키워드가 추출되는 것을 확인했습니다. ▼ 작성하신 시스템 프롬프트에 '영문으로만 출력' 해달라는 지시를 입력해두었습니다. """ ### 지시사항 - 문서에서 핵심 키워드 최대 5개를 추출합니다. - 키워드는 핵심 주제와 상응하는 우선순위로 꼭 json 형식으로 답변합니다. - 각각의 핵심 키워드는 2단어 이하로 조합해서 추출합니다. - 주어진 문서에서 핵심 키워드를 영문으로만 출력합니다. - 한글을 출력하지 않고 절대로 영문으로만 출력합니다. ### 응답형식 {'keywords':['키워드1', '키워드2', '키워드3', '키워드4', '키워드5']} """ ▼ 영문으로 출력되는 것을 확인할 수 있었습니다. 또한 분류와 같은 작업에서 Repetition penalty 값은 1.2로 설정을 추천드립니다. 감사합니다. 1 링크 복사 다른 사이트에 공유하기 More sharing options...
이철희 Posted May 7 Author 공유하기 Posted May 7 넵 빠른 답변 감사드립니다. 근데, 문서들이 어떤 것은 한글, 어떤 것은 영문, 어떤 문서들은 한글+영문인데요. 이런 문서들을 각각 구분하여 프롬프트를 변경해서 날려줘야 한다는 말씀인가요? 한글이나 영문처럼 구분이 되는 것들이야 어떻게 체크해서 프롬프트를 변경해준다고 하지만 한글과 영문이 혼용된 문서인 경우에는 어떻게 해야할까요? 제가 전에 프롬프트에 "한글은 한글로 영문은 영문으로 원문 그대로 키워드를 추출하라" 라고도 해봤었는데요. 그때도 완벽하게 먹히지 않더라구요. 그럼.. 답변 부탁 드립니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자 Posted May 7 공유하기 Posted May 7 @이철희님, 네, 한글 문서의 프롬프트, 영문 문서의 프롬프트처럼 작업을 구분해서 이용하는 것이 성능상 안정적일 수 있을 것 같습니다. 다만 현실적으로 모든 작업들을 이렇게 구분하는 것은 어렵기 때문에, 한글은 한글, 영문은 영문으로 해달라는 형태의 시스템 프롬프트를 추가해보면서 성능 확인이 필요할 것 같습니다. 또는 프롬프트에 간단한 예제를 넣어주는 것도 도움이 될 수 있습니다. 마지막으로 앞서 말씀드린대로, Repetition penalty는 문구를 생성할 때 반복적인 결괏값을 생성하지 않도록 반복되는 토큰에는 감점 요소를 부여하는 값입니다. 따라서 해당 값을 1.2 정도로 낮추면, 최대한 원문에 근접한 언어의 결과를 낼 수 있지 않을까 기대합니다. 그 밖에 부족한 부분들은 지속적으로 모델 개선이 이루어질 수 있도록 관리하겠습니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
이철희 Posted May 7 Author 공유하기 Posted May 7 네 알겠습니다. 제가 LLM 전문가가 아니다보니 다 이해를 하기는 어려운 부분인 것 같습니다. 빠른 답변 감사 드립니다. 1 링크 복사 다른 사이트에 공유하기 More sharing options...
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인