°¡¿Â¾ÆÀÌ ºñ¾ÆÀÌ¸ÅÆ®¸¯½º ºñÁ¨Æ®·Î ¾ÆÀÌÆ¼ÄÞ ¿¥Åõ¼ÒÇÁÆ® ÁöƼ¿ø Ƽ¸Æ½º¼ÒÇÁÆ® Å丶Åä½Ã½ºÅÛ Æ÷½Ã¿¡½º ÇÚµð¼ÒÇÁÆ® µ¥ÀÌÅͽºÆ®¸²Áî ¾ËÆ¼º£À̽º ³ª¹«±â¼ú ¾Ë¼­Æ÷Æ® À§¿¥ºñ ¿£Å°¾Æ ÀÎÇÁ¶ó´Ð½º ¸¶Å©¾Ö´Ï ½ºÄßÁ¤º¸Åë½Å À̱۷ç½ÃÅ¥¸®Æ¼ Áö¶õÁö±³½ÃÅ¥¸®Æ¼ ÆÄ¼ö´åÄÄ ÇǾØÇǽÃÅ¥¾î
02.20
ÁÖ¿ä´º½º
´º½ºÈ¨ > Ä®·³
[°­ÁÂ] ºòµ¥ÀÌÅÍ ½ÇÀü Æ©Å丮¾ó (3)µ¥ÀÌÅÍ °¡°ø ¹× ºÐ¼® (1)

[ÄÄÇ»ÅÍ¿ùµå]

   
¡ã À̵¿±Õ ¹öÁî´Ï ¸®¼­Ä¡¿£Áö´Ï¾î

1. µ¥ÀÌÅÍ ¼öÁý - Å©·Ñ¸µ ¼Ò°³, Scrapy ¹× BeautifulSoup »ç¿ë¹æ¹ý
2. µ¥ÀÌÅÍ ÀúÀå - EFK ½ºÅà »ç¿ë¹æ¹ý
3. µ¥ÀÌÅÍ °¡°ø ¹× ºÐ¼® (1)
4. µ¥ÀÌÅÍ °¡°ø ¹× ºÐ¼® (2)
5. µ¥ÀÌÅÍ °¡°ø ¹× ºÐ¼® (3)

 

µ¥ÀÌÅÍ ºÐ¼®ÀÇ ±âº»ÀûÀÎ ´Ü°è´Â Å©°Ô ´ÙÀ½ÀÇ 4´Ü°è·Î ±¸ºÐÇÒ ¼ö ÀÖ´Ù.
1. µ¥ÀÌÅÍ ¼öÁý ¹× ÀúÀå
2. ºÐ¼® ¾Ë°í¸®Áò ¼±Á¤
3. ºÐ¼® ¾Ë°í¸®Áò¿¡ ¸ÂÃç µ¥ÀÌÅÍ °¡°ø
4. ºÐ¼® ¾Ë°í¸®Áò¿¡ ÀÇÇÑ Ã³¸®(±â°èÇнÀ µî)

¿ì¸®´Â ÇöÀç µ¥ÀÌÅÍ ¼öÁý ¹× ÀúÀå ´É·ÂÀ» °®Ãá »óÅ´Ù. ±×·³ ¹Ù·Î ºÐ¼® ¾Ë°í¸®ÁòÀ» ¼±Á¤ÇÏ´Â ´Ü°è·Î °¡¸é µÉ±î? »ç½ÇÀº ±×·¸Áö ¾Ê´Ù. Çö½Ç ¼¼°è¿¡¼­ ºÐ¼® ¾Ë°í¸®ÁòÀÇ ¼±Á¤Àº ´ëºÎºÐ ±ºÁýÈ­(Clustering), ºÐ·ù(Classification), ¿¹Ãø(Regression)À̶ó´Â ¹üÁÖ Áß Çϳª¸¦ ¼±Á¤ÇÏ°Ô µÈ´Ù.

°¢ ¹üÁÖ´Â ¿ì¸®°¡ ¸¸³ª°Ô µÉ ¹®Á¦ÀÇ Á¾·ù¸¸Å­À̳ª ´Ù¾çÇÑ ¾Ë°í¸®ÁòÀ» Æ÷ÇÔÇϰí ÀÖ°í, ¿ì¸®´Â ÀÌ·¯ÇÑ ¾Ë°í¸®Áò Áß ¸î °¡Áö¸¦ ¼±ÅÃÇØ ´Ù¾çÇÑ µ¥ÀÌÅÍ·Î ½ÇÇèÇÏ°Ô µÇ¸ç, ÀÌ·¯ÇÑ °úÁ¤À» ÅëÇØ ¿ì¸®°¡ ¿øÇÏ´Â ¸ñÇ¥¿¡ °¡Àå ºÎÇÕÇÏ´Â ¾Ë°í¸®Áò°ú µ¥ÀÌÅÍ ÇüŸ¦ ãÀ» ¼ö ÀÖ´Ù.

À̶§ °¢ ¾Ë°í¸®ÁòÀº ÇнÀ¿¡ ¿ä±¸µÇ´Â µ¥ÀÌÅÍÀÇ Á¾·ù³ª ÇüŰ¡ ´Ù¸¥ °æ¿ì°¡ ¸¹´Ù. µû¶ó¼­ ´Ù¾çÇÑ ¾Ë°í¸®ÁòÀ» ½ÇÇèÇϱâ À§Çؼ­´Â µ¥ÀÌÅ͸¦ ¿øÇÏ´Â ÇüÅ·Π°¡°øÇÒ ¼ö ÀÖ´Â ´É·ÂÀÌ ÇʼöÀûÀ̶ó°í ÇÒ ¼ö ÀÖ´Ù.

À̹ø ±Û¿¡¼­´Â ¿ì¸®°¡ ¼öÁýÇÑ µ¥ÀÌÅ͸¦ ¿øÇÏ´Â ÇüÅ·Π°¡°øÇÏ´Â ¹æ¹ý(ƯÈ÷ º¤ÅÍ¿Í ¸ÅÆ®¸¯½º)À» ¾Ë¾Æº¸°í, Word2Vec ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇØ ¿µÈ­¹è¿ì¿Í ¿µÈ­°¨µ¶ °£ÀÇ °£´ÜÇÑ ÀÇ¹Ì ºÐ¼® µµ±¸¸¦ ÀÛ¼ºÇغ¸µµ·Ï ÇϰڴÙ.

º» ±Û¿¡¼­ »ç¿ëµÈ ÄÚµå´Â https://github.com/haandol/kobis ¿¡¼­ È®ÀÎÇÒ ¼ö ÀÖÀ¸¸ç, µ¥ÀÌÅÍ´Â ¿µÈ­ÁøÈïÀ§¿øÈ¸¿¡¼­ Á¦°øÇÏ´Â KOBIS ¿µÈ­Á¤º¸¸¦ Å©·Ñ¸µÇØ ¿¹Á¦·Î »ç¿ëÇß´Ù.


Pandas

ÆÄÀ̽ã(Python)À¸·Î µ¥ÀÌÅÍ ºÐ¼®À» ÇÒ ¶§ ºüÁöÁö ¾Ê°í µîÀåÇÏ´Â ¶óÀ̺귯¸®°¡ ¹Ù·Î Pandas¿Í Numpy´Ù. Numpy´Â °úÇÐ ºÐ¾ß¿¡¼­ ÀÚÁÖ ´Ù·ç°Ô µÇ´Â ´ÙÂ÷¿ø¹è¿­¿¡ ´ëÇÑ ¿¬»êÀ» ºü¸£°Ô(°ÅÀÇ C Äڵ忡¼­ ¹è¿­À» ´Ù·ç´Â ¼Óµµ·Î) ó¸®ÇÒ ¼ö ÀÖ°Ô ÇÏ´Â ¶óÀ̺귯¸®À̸ç, Pandas´Â Numpy¸¦ ±â¹ÝÀ¸·Î ÇØ ´õ Ãß»óÈ­µÈ ´Ù¾çÇÑ ÆíÀDZâ´ÉµéÀ» Á¦°øÇÏ´Â ¶óÀ̺귯¸®¶ó°í »ý°¢ÇÏ¸é µÈ´Ù.

º» ±Û¿¡¼­´Â Pandas¿¡¼­ Á¦°øÇϰí ÀÖ´Â ¼ö¸¹Àº ±â´ÉÀ» ÇϳªÇϳª ¾ð±ÞÇϱ⺸´Ù´Â, ½ÇÁ¦ µ¥ÀÌÅ͸¦ °¡°øÇÏ´Â °£´ÜÇÑ ¿¹Á¦¸¦ ±â¹ÝÀ¸·Î ÀÚÁÖ »ç¿ëÇÏ´Â ±â´Éµé¸¸ ¼Ò°³ÇÒ±î ÇÑ´Ù. ¹é¹®ÀÌ ºÒ¿©ÀϰßÀ̶ó°í ÇßÀ¸´Ï Äڵ带 º¸¸é¼­ ¼³¸íÇϰڴÙ.

   
¡ã <±×¸² 1> Pandas¿¡¼­ CSV¸¦ ÀÐ¾î µé¿© DataFrameÀ¸·Î ¸¸µé±â

CSV(Comma Separated Values)´Â ¸î °¡Áö Çʵ带 ½°Ç¥(,)·Î ±¸ºÐÇÑ ÅØ½ºÆ® µ¥ÀÌÅÍ ¹× ÅØ½ºÆ® ÆÄÀÏ·Î ´Ù¾çÇÑ °÷¿¡¼­ ÀÚÁÖ ¾²´Â ÇüÅ´Ù. Pandas¿¡¼­´Â ÀÌ·¸°Ô ÀÚÁÖ »ç¿ëµÇ´Â ÆÄÀÏ ÇüÅ¿¡ ´ëÇØ ¼Õ½±°Ô Pandas µ¥ÀÌÅÍ °´Ã¼·Î ÀÐ¾î µéÀÏ ¼ö ÀÖµµ·Ï ÇÔ¼ö¸¦ Á¦°øÇϰí ÀÖÀ¸¸ç, ¿¹Á¦¿¡¼­ »ç¿ëÇÏ´Â CSV ¿Ü¿¡µµ SQL Äõ¸® °á°ú(read_sql), ¿¢¼¿ ÆÄÀÏ(read_excel), HTML ÆÄÀÏ(read_html) µîÀÌ ´ëÇ¥ÀûÀÎ Áö¿ø ÇüÅ´Ù.

ÀÌ·¸°Ô ÀÐÀº µ¥ÀÌÅÍ´Â µ¥ÀÌÅÍÇÁ·¹ÀÓ(DataFrame, ÀÌÇÏ DF)À̶ó´Â Pandasµ¥ÀÌÅÍÇüÀ¸·Î ÀúÀåÀÌ µÇ´Âµ¥, DF´Â ÀÏ´Ü RDBMS¿¡¼­ »ç¿ëÇÏ´Â Å×ÀÌºí ±¸Á¶¸¦ ÆÄÀ̼± °´Ã¼·Î ¿Å°Ü³õÀº °ÍÀ̶ó°í »ý°¢ÇÏ¸é µÈ´Ù. DFµµ Å×À̺í°ú ¸¶Âù°¡Áö·Î Çà(row), °ú ¿­(column)·Î ±¸¼ºµÆÀ¸¸ç, °¢ ÇàÀ» °¡Á®¿Ã ¼ö ÀÖ´Â ÁÖŰ(Primary Key: PK)°¡ Á¸ÀçÇÑ´Ù. DF¿¡¼­´Â ÁÖ۸¦ À妽º(Index)¶ó°í ºÎ¸¥´Ù.

¿­°ú Çà¿¡ Á¢±ÙÇÏ´Â ¹æ¹ýÀº ¾ÆÁÖ ½±´Ù. ¿­¿¡ Á¢±ÙÇÒ ¶§´Â ¿­ À̸§À» Ű·Î ÇØ ÆÄÀ̽㠻çÀüÇü(dictionary)ó·³ »ç¿ëÇÏ¸é µÈ´Ù. Çà¿¡ Á¢±ÙÇÒ ¶§´Â À妽º¸¦ ÀÌ¿ëÇØ Á¢±ÙÇØ¾ß ÇÑ´Ù. <±×¸² 1>ÀÇ µ¥ÀÌÅ͸¦ º¸¸é id ¿­ ¿ÞÂÊ¿¡ 0, 1, 2, 3... µîÀÌ À妽º´Ù. Çà¿¡ Á¢±ÙÇÒ ¶§µµ À妽º¸¦ ÀÌ¿ëÇÏ´Â ºÎºÐ¸¸ ´Ù¸¦ »Ó ¸¶Âù°¡Áö·Î À妽º À̸§À» Ű·Î ÇØ ÆÄÀ̽㠻çÀüÇüó·³ »ç¿ëÇÏ¸é µÈ´Ù. ÀÌ·¸°Ô Çà°ú ¿­¿¡ Á¢±ÙÇÏ´Â ¹æ¹ýÀº <±×¸² 2>¿Í °°´Ù.

   
¡ã <±×¸² 2> DataFrame °´Ã¼ÀÇ Çà°ú ¿­¿¡ Á¢±ÙÇϱâ

¸¸¾à À妽º¸¦ id·Î ¹Ù²Ù°í ½Í´Ù¸é ¾î¶»°Ô ÇÏ¸é µÉ±î? reindex ¸í·ÉÀ» ÅëÇØ À妽º¸¦ º¯°æÇÒ ¼ö ÀÖ´Ù. ¾Æ·¡ <±×¸²3>¿¡¼­ º¸µí reindex¸¦ ÀÌ¿ëÇÒ ¶§ columns ÆÄ¶ó¹ÌÅÍ¿¡ ¿øÇÏ´Â ¿­ÀÇ À̸§À» ¹è¿­·Î ³Ñ°ÜÁÜÀ¸·Î½á ºÒÇÊ¿äÇÑ ¿­µéÀº »©¹ö¸± ¼öµµ ÀÖ´Ù.

   
¡ã <±×¸² 3> reindex ÀÌ¿ëÇØ µ¥ÀÌÅÍ À妽º¿Í ¿­ º¯°æÇϱâ

±×·±µ¥ <±×¸² 3>¿¡¼­ ù ¹øÂ° ÇàÀÇ actor¿¡ º¸ÀÌ´Â NaNÀº °ªÀÌ Á¸ÀçÇÏÁö ¾Ê´Â´Ù(NULL)´Â Àǹ̴Ù. ¸¸¾à °ªÀÌ Á¸ÀçÇÏÁö ¾Ê´Â ¿­À» °®°í ÀÖ´Â ÇàÀ» Á¦°ÅÇÏ°í ½Í´Ù¸é ¾î¶»°Ô ÇØ¾ß ÇÒ±î? dropna ¸í·ÉÀ» ÅëÇØ ÇØ´ç ÇàµéÀ» ½±°Ô Á¦°ÅÇÒ ¼ö ÀÖ´Ù.

   
¡ã <±×¸² 4> dropna·Î °ªÀÌ ¾ø´Â ¿­À» Æ÷ÇÔÇÑ Çàµé Á¦°Å

ÀÌÁ¦ µ¥ÀÌÅͰ¡ ±âº»ÀûÀÎ ÇüÅ´ °®ÃèÀ¸´Ï Á¶°Ç¿¡ ¸ÂÃç µ¥ÀÌÅ͸¦ »Ì¾Æ³»º¸ÀÚ. ‘¹ÚÂù¿í’ °¨µ¶ÀÌ directorÀÎ ¿µÈ­ÀÇ actorµéÀº ¾î¶»°Ô È®ÀÎÇÒ ¼ö ÀÖÀ»±î? ´Ù¾çÇÑ ¹æ¹ýÀ¸·Î °¡Á®¿Ã ¼ö ÀÖ°ÚÁö¸¸ °¡Àå °£´ÜÇÑ 2°¡Áö ¹æ¹ý¸¸ ¾Ë¾Æº»´Ù.

¸ÕÀú RDBMS¿¡ Àͼ÷ÇÑ À̵éÀº ‘group by’¸¦ ¶°¿Ã¸± ÅÙµ¥, DFµµ ÇØ´ç ¸í·ÉÀ» Á¦°øÇϰí ÀÖ´Ù. ÇÔ¼ö À̸§µµ groupby´Ù. groupby(‘director’)¸¦ ÅëÇØ directorº°·Î ¹­¾î³½ DataFrameGroupBy °´Ã¼¸¦ ¾òÀ» ¼ö ÀÖ´Ù. ÀÌ °´Ã¼´Â get_groupÀ̶ó´Â ÇÔ¼ö¸¦ ÅëÇØ ¹­ÀÎ °³º° ±×·ìÀ» ¹ÝȯÇÑ´Ù. <±×¸² 5>¿Í °°ÀÌ get_group(‘¹ÚÂù¿í’)À¸·Î ¹ÚÂù¿íÀÌ directorÀÎ ÇàµéÀ» °¡Á®¿Ã ¼ö ÀÖ´Ù. ´Ù¸¥ ¹æ¹ýÀ¸·Î´Â df.directorÀÇ Á¶°Ç¹® ±â´ÉÀ» ÀÌ¿ëÇÏ´Â ¹æ¹ýÀÌ ÀÖ´Ù.

df.director == ‘¹ÚÂù¿í’ À̶ó´Â ¸í·ÉÀ» ÅëÇØ ÇØ´ç Á¶°Ç¿¡ ¸ÂÃç Àüü Çà Å©±â¸¸Å­ÀÇ True ¶Ç´Â False·Î ä¿öÁ® ÀÖ´Â ¹è¿­(Series)À» ¹ÝȯÇÑ´Ù. DF¿¡ ÇØ´ç ¹è¿­À» ۰ªÀ¸·Î ³ÖÀ¸¸é True °ªÀÎ Çุ ¾òÀ» ¼ö ÀÖ´Ù.

   
¡ã <±×¸² 5> '¹ÚÂù¿í' °¨µ¶ÀÇ ¿µÈ­Á¦¸ñ¸¸ °¡Á®¿À±â

´ÙÀ½ Àý¿¡¼­ ´Ù·ê Word2Vec¿¡ ÇнÀ½Ã۱â À§ÇØ µ¥ÀÌÅÍ ÇüŸ¦ ‘¿µÈ­Á¦¸ñ ¿µÈ­°¨µ¶ ¹è¿ì1 ¹è¿ì2 ¹è¿ì3...’ ÇüÅ·Π°¡°øÇغ¸°Ú´Ù.

   
¡ã <±×¸² 6> Word2Vec¿¡ ÇнÀ½Ã۱â À§ÇØ µ¥ÀÌÅÍ ÇüÅ º¯È¯


Word2Vec

Word2vecÀº À̸§ ±×´ë·Î ´Ü¾î(word)¸¦ ¼ö½Ê~¼ö¹é Â÷¿øÀÇ º¤ÅÍ(vector)·Î º¯È¯ÇØ ´Ü¾îÀÇ Àǹ̸¦ Ãß·ÐÇÏ´Â ¾Ë°í¸®ÁòÀÌ´Ù. ÀÌ ¾Ë°í¸®ÁòÀº ³»ºÎÀûÀ¸·Î CBOW(Contiguous Bag Of Words) ¿Í SGNS(Skip-Gram model with Negative Sampling)À̶ó´Â 2°³ÀÇ ½Å°æ¸Á ¸ðµ¨À» ÀÌ¿ëÇØ ´Ü¾î(Vocabulary)¸¦ ÇнÀÇÏ°Ô µÈ´Ù.

°¢ ¸ðµ¨Àº À̸§¿¡¼­ ¾ð±ÞµÈ Bag of Words, Skip-gram, Negative sampling ¿Ü¿¡µµ ¿öµå ÀÓº£µù(word embedding), ½Å°æ¸Á(Neural net) µîÀ» µû·Î ¾ð±ÞÇØ¾ß ¼³¸íÇÒ ¼ö ÀÖÀ¸¹Ç·Î, º» ±Û¿¡¼­´Â ³»ºÎ¾Ë°í¸®Áò°ú ±¸Çö¿¡ ´ëÇØ¼­´Â ´Ù·çÁö ¾Ê°Ú´Ù. ÀÌ·± ´Ù¼Ò º¹ÀâÇØ º¸ÀÌ´Â ¾Ë°í¸®ÁòÀ» Àû¿ëÇÑ °á°ú´Â »ó´çÈ÷ ³î¶ø´Ù. Word2VecÀ» ÀÌ¿ëÇÏ¸é ‘ÇÁ¶û½º - ÆÄ¸® + ¼­¿ï = Çѱ¹’, ‘¿Õ - ³²ÀÚ + ¿©ÀÚ = ¿©¿Õ’ °°Àº ½Å±âÇÑ °á°ú¸¦ ¾òÀ» ¼ö ÀÖ´Ù.

À̹ø Àý¿¡¼­´Â <±×¸² 6>¿¡¼­ ¾òÀº °á°ú¸¦ Word2vec¿¡ ÇнÀ½ÃÄÑ ´Ù¾çÇÑ °á°ú¸¦ ¾òÀ¸·Á ÇÑ´Ù. ¸ÕÀú Word2vecÀ» ÀÌ¿ëÇϱâ À§ÇØ gensim ¼­µåÆÄƼ ¶óÀ̺귯¸®¸¦ PIP¸¦ ÅëÇØ ¼³Ä¡ÇÑ´Ù. gensimÀº ÀÚ¿¬¾î¸¦ º¤ÅÍ·Î º¯È¯Çϴµ¥ ÇÊ¿äÇÑ ´ëºÎºÐÀÇ ÆíÀDZâ´ÉÀ» Á¦°øÇϰí ÀÖ´Â ¶óÀ̺귯¸®·Î, ÀÌÈÄ ±Û¿¡¼­µµ °è¼Ó »ç¿ëÇÒ ¿¹Á¤ÀÌ´Ï ½Ã°£ ³¯ ¶§ ¹®¼­¸¦ Àо´Â °Íµµ ÁÁ´Ù.

gensimÀº Word2vecÀ» Æ÷ÇÔÇϰí ÀÖÀ¸¸ç, À̸¦ »ç¿ëÇϱâ À§Çؼ­´Â ´Ü¼øÈ÷ ¸ðµâÀ» ÀÓÆ÷ÆÃÇÏ¸é µÈ´Ù. ÇнÀÇÏ´Â °úÁ¤µµ ±²ÀåÈ÷ °£´ÜÇѵ¥ <±×¸² 7>°ú °°ÀÌ word2vec.Text8Corpus¸¦ ÀÌ¿ëÇØ ÅØ½ºÆ® ÆÄÀÏ¿¡¼­ ¹®ÀåµéÀ» °¡Á®¿Â µÚ word2vec.Word2vec¿¡ ¹®ÀåµéÀ» Àü´ÞÇÔÀ¸·Î½á ÇнÀ½Ãų ¼ö ÀÖ´Ù.

Word2vecÀº ¸î ¹é¸¸ °Ç ´ÜÀ§·Î ÇнÀ½ÃÄÑ¾ß Á¦´ë·Î ºÐ¼®ÇÒ ¼ö ÀÖ´Ù°í ÇÏÁö¸¸, º» ±Û¿¡¼­´Â KOBIS¿¡¼­ Á¦°øÇÏ´Â ¿µÈ­Á¤º¸ Áß ¾à 3¸¸ °ÇÀÇ ¿µÈ­¿¡ ´ëÇØ ÇнÀ½ÃÄѺôÙ. ¹é¸¸ °³ ³²ÁþÀÇ ´Ü¾îÀ̱⠶§¹®¿¡ ¸î ºÐ ¾È¿¡ ÇнÀÀÌ µÆ´Ù. ³í¹®¿¡ µû¸£¸é 8¾ï °³ ´Ü¾î¸¦ ÇнÀÇϴµ¥ ¾à ÇÏ·ç Á¤µµ °É¸°´Ù°í ÇÑ´Ù.

   
¡ã <±×¸² 7> gensim ÅëÇÑ Word2vec ÀÓÆ÷ÆÃ ¹× ¹®Àå ÇнÀ½Ã۱â

ÇнÀÀÌ ³¡³µÀ¸´Ï Äõ¸®¸¦ ³Ö¾î °á°ú¸¦ È®ÀÎÇØº¸ÀÚ. <±×¸² 8>¿¡¼­ 2°¡Áö Äõ¸®¸¦ ¿¹·Î ³Ö¾îºÃ´Ù.
1. ‘¿Ãµåº¸ÀÌ’ + ‘¹ÚÂù¿í’ - ‘½º¸±·¯’ = ?
2. ‘Å©¸®½ºÅäÆÛ³î¶õ’ + ‘Å©¸®½ºÂùº£ÀÏ’ - ‘È÷½º·¹Àú’ = ?

   
¡ã <±×¸² 8> Word2vec ÇнÀµÈ ¸ðµ¨¿¡ Äõ¸® ³Ö±â

ÇнÀµÈ ¸ðµ¨À» ÀÌ¿ëÇØ Äõ¸®¸¦ ½ÇÇàÇÑ °á°ú´Â ´ÙÀ½°ú °°´Ù.
1. ‘¿Ãµåº¸ÀÌ’ + ‘¹ÚÂù¿í’ - ‘½º¸±·¯’ = ‘¹Ì¾²È«´ç¹«’
2. ‘Å©¸®½ºÅäÆÛ³î¶õ’ + ‘Å©¸®½ºÂùº£ÀÏ’ - ‘È÷½º·¹Àú’ = ‘´ÙÅ©³ªÀÌÆ®¶óÀÌÁî’

Word2vecÀ¸·Î ÇнÀ½Ã۴µ¥ ±ÇÀåµÇ´Â µ¥ÀÌÅ;纸´Ù ¸¹ÀÌ ºÎÁ·ÇÑ »óÅ¿´Áö¸¸ »ó´çÈ÷ ±×·²µíÇÑ °á°ú¸¦ ¾òÀ» ¼ö ÀÖ¾ú´Ù.

 

À̹ø ±Û¿¡¼­´Â Pandas, Numpy¸¦ ÀÌ¿ëÇØ µ¥ÀÌÅ͸¦ °¡°øÇÏ´Â ¹æ¹ý°ú Word2Vec ¶óÀ̺귯¸®¸¦ ÅëÇØ ´Ü¾î °£ÀÇ °ü°è¸¦ ¾Ë¾Æº¸´Â °£´ÜÇÑ ÀÇ¹Ì ºÐ¼® ÅøÀ» ÀÛ¼ºÇغôÙ. ÀÌÁ¦ ¿ì¸®´Â ¾î¶°ÇÑ ºÐ¼® ¾Ë°í¸®ÁòÀ» ¼±Á¤ÇÏ´õ¶óµµ ´çȲÇÏÁö ¾Ê°Ô µÆ´Ù. ÇØ´ç ¾Ë°í¸®ÁòÀÌ ¿ä±¸ÇÏ´Â ÇüŰ¡ ¹«¾ùÀ̵ç ÇØ´ç ¸ð¾çÀ¸·Î ¿øº» µ¥ÀÌÅ͸¦ °¡°øÇÒ ¼ö ÀÖ´Â ´É·ÂÀ» °®Ãè±â ¶§¹®ÀÌ´Ù.

µ¥ÀÌÅÍ¿Í ºÐ¼® ¾Ë°í¸®ÁòÀÌ ¸ðµÎ °®ÃçÁ³´Ù¸é ¿ì¸®°¡ ÇÒ ÀÏÀº º°·Î ¾ø´Ù. ½Ã°£°úÀÇ ½Î¿ò¸¸ÀÌ ³²¾ÒÀ» »ÓÀÌ´Ù. ´Ù¸¸, ½ÃÀÛÇÏ¸ç ¾ð±ÞÇßµíÀÌ ½ÇÁ¦ ȯ°æ¿¡¼­ ºÐ¼® ¾Ë°í¸®ÁòÀÇ ¼±Á¤Àº Å©°Ô ±ºÁýÈ­(Clustering), ºÐ·ù(Classification), ¿¹Ãø(Regression)À̶ó´Â ¹üÁÖ Áß Çϳª¸¦ ¼±ÅÃÇÏ°Ô µÈ´Ù. ¹üÁÖ¸¦ Á¤ÇÏ´Â °ÍÀº ´ëºÎºÐÀÇ °æ¿ì ²Ï ¸íÈ®ÇϹǷΠũ°Ô ¾î·ÆÁö ¾ÊÁö¸¸, ¹üÁÖ³»ÀÇ ¾î¶² ¾Ë°í¸®ÁòÀ» ¾î¶² µ¥ÀÌÅÍ ÇüŸ¦ ÀԷ°ªÀ¸·Î ¼³Á¤ÇØ »ç¿ë(¶Ç´Â ÇнÀ)ÇÒ °ÍÀΰ¡´Â ¸¹Àº °æÇèÀ» ÅëÇØ ¾òÀ» ¼ö ÀÖ´Â Á÷°üÀÌ ¾ø´Ù¸é ±²ÀåÈ÷ ³­ÇØÇÑ °æ¿ì°¡ ¸¹´Ù.

Áï, µ¥ÀÌÅÍ ºÐ¼®ÀÇ Àü¹®°¡°¡ µÇ±â À§Çؼ­´Â ¿©·¯ °¡Áö ¾Ë°í¸®ÁòÀ» ´Ù¾çÇÑ ¸ð¾çÀÇ µ¥ÀÌÅÍ·Î ÇнÀ½ÃÄѺ¸°í ¾î¶² °æ¿ì¿¡ ÃÖÀûÀÇ °á°ú¸¦ ¾òÀ» ¼ö ÀÖ´ÂÁö Áö¼ÓÀûÀ¸·Î ½ÇÇèÇÒ Çʿ䰡 ÀÖÀ¸¸ç, ¾ÕÀ¸·ÎÀÇ ±Ûµµ ½ÇÁ¦ ȯ°æ¿¡¼­ »ç¿ëÇÏ´Â ¿¹Á¦¸¦ ÅëÇØ ´Ü¼øÈ­½ÃŲ ÀÌ·ÐÀ» ¼Ò°³Çϰí À̸¦ Åä´ë·Î ½Ç¿ëÀûÀÎ °æÇèÀ» ½×´Âµ¥ ÁßÁ¡À» µÎ°íÀÚ ÇÑ´Ù.

Àαâ±â»ç ¼øÀ§
(¿ì)08503 ¼­¿ïƯº°½Ã ±Ýõ±¸ °¡»êµðÁöÅÐ1·Î 181 (°¡»ê W CENTER) 1713~1715È£
TEL : 02-2039-6160  FAX : 02-2039-6163  »ç¾÷ÀÚµî·Ï¹øÈ£:106-86-40304
°³ÀÎÁ¤º¸/û¼Ò³âº¸È£Ã¥ÀÓÀÚ:±è¼±¿À  µî·Ï¹øÈ£:¼­¿ï ¾Æ 00418  µî·ÏÀÏÀÚ:2007.08  ¹ßÇàÀÎ:±è¿ë¼®  ÆíÁýÀÎ:±è¼±¿À